RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. Blok 6 Ordinační analýzy II Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ Osnova i- 1. Analýza nezávislých komponent (ICA) 2. Vícerozměrné škálování (MDS) 3. Varietní učení (manifold learning) 4. Korespondenční analýza (CA) 5. Metoda parciálních nejmenších čtverců (PLS) 6. Redundanční analýza (RDA) 7. Kanonická korelační analýza (CCorA) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä ^ Schéma analýzy a klasifikace dat - opakování Data I Předzpracování I Redukce I Klasifikace Ukázka - kognitivní data apod. a b C d e 1 id vek pohlaví výska vaha 2 1 38 Z 164 45 3 2 35 M 90 4 3 26 Z 17S 70 a b C d j e 1 id vek pohlaví výska vaha 2 1 3B Z 164 45 3 2 35 M 167 90 4 3 26 Z 178 70 m a e C d e 1 id vek pohlaví výska vaha 2 1 33 Z 164 45 2 35 M 167 90 4 3 26 Z 178 70 nebo Ukázka - obrazová data r. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba jmi) 4 Extrakce proměnných - opakování >- • jednou z možných přístupů redukce dat (vedle selekce) • transformace původních proměnných na menší počet jiných proměnných =^> tzn. hledání (optimálního) zobrazení Z, které transformuje původní p-rozměrný prostor (obraz) na prostor (obraz) m-rozměrný (m < p) • pro snadnější řešitelnost hledáme zobrazení Z v oboru lineárních zobrazení • metody extrakce proměnných: - analýza hlavních komponent (PCA) - faktorová analýza (FA) - analýza nezávislých komponent (ICA) - korespondenční analýza (CA) - vícerozměrné škálování (MDS) - redundanční analýza (RDA) - kanonická korelační analýza (CCorA) - manifold learning metody (LLE, Isomap atd.) - metoda parciálních nejmenších čtverců (PLS) • metody extrakce proměnných často nazývány jako metody ordinační analýzy mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä $J ~* Analýza nezávislých komponent Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent (ICA) Princip: Hledání statisticky nezávislých komponent v původních datech. Comp 008 Feature Auditory Oddball O Q®®®@ mmm liTlíTftÉM Výhody: + analýza na celém mozku, vícerozměrná metoda + dokáže vytvořit lépe interpretovatelné komponenty než PCA Nevýhody: - velmi časově náročná, předstupněm je redukce pomocí PCA je třeba expertní znalost pro výběr komponent Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba IMJ Srovnání s analýzou hlavních komponent (PCA) Princip: Vytvoření nových proměnných (komponent) z původních proměnných tak, aby zůstalo zachováno co nejvíce variability. y2 PCA y2 \ Výhody: + analýza na celém mozku + vícerozměrná metoda Nevýhody: - nevyužívá informaci o příslušnosti subjektů do skupin - potřebné určit, kolik hlavních komponent se použije pro transformaci Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba Jmi) s Analýza nezávislých komponent • anglicky Independent Component Analysis (ICA) x^t) = a^s^t) + a12.s2(t) x2(t) = a21.s1(t) + a22.s2(t) • úloha spočívá v nalezení originálních neznámých signálů z jednotlivých zdrojů s1(t) a s2(t) máme-li k dispozici pouze zaznamenané signály x^t) a x2(t) • ICA umožňuje určit koeficienty a y za předpokladu, že známé signály jsou dány lineárních kombinací zdrojových, a za předpokladu statistické nezávislosti zdrojů v každém čase t mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä $J ^ Analýza nezávislých komponent - model dat >- • mějme x =T(x ), což je m-rozměrný náhodný vektor Xj = ailorig.s1orig+ ai2orig.s2orig+...+ aimorig.smorig/ i = l,2,...,m nebo maticově x = Aori8.sorig sorig je vektor originálních skrytých nezávislých komponent a s^'8 jsou nezávislé komponenty (předpoklad vzájemně statisticky nezávislosti) Aorig je transformační matice • skryté nezávislé komponenty je možno vyjádřit pomocí vztahu: s = W.x • cíl: nalézt lineární transformaci (koeficienty transformační matice W) tak, aby vypočítané nezávislé komponenty s] byly vzájemně statisticky nezávislé [W = A"1] Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ Analýza nezávislých komponent - omezení » pouze jedna originální nezávislá komponenta může mít normální rozložení pravděpodobnosti (pokud má více zdrojů normální rozložení, není ICA schopna tyto zdroje ze vstupních dat extrahovat) * pro dané m-rozměrné obrazové vektory je ICA schopna najít pouze m nezávislých komponent * nelze obecně určit polaritu nezávislých komponent * nelze určit pořadí nezávislých komponent Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ Analýza nezávislých komponent - omezení původní neznámé signály měřené signály signály identifikované pomocí ICA I jíuumI © *0 ~"« «i IM ■» ÍN i > » I • H jsou identifikovány správné původní signály, ale pořadí signálů a jejich polarita je jiná než v původních datech Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba Jmi) 12 Odhad nezávislých komponent • optimalizace pomocí zvolené optimalizační (účelové, kriteriální, objektové) funkce u a) nalézt kriteriální funkci b) vybrat optimalizační algoritmus ad a) možnost ovlivnit statistické vlastnosti metody ad b) spojitá optimalizační úloha s „rozumnou" kriteriální funkcí - gradientní metoda, Newtonova metoda - ovlivňujeme rychlost výpočtu (konvergenci), nároky na paměť,... Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ Odhad nezávislých komponent - základní úvaha • nechť existuje m nezávislých náhodných veličin s určitými pravděpodobnostními rozděleními (jejich součet za obecných podmínek konverguje s rostoucím počtem sčítanců k normálnímu rozdělení - tzv. centrální limitní věta); • o vektoru x (který máme k dispozici) předpokládáme, že vznikl součtem nezávislých komponent sorig jednotlivé náhodné veličiny Xj mají pravděpodobnostní rozdělení, které je „bližší" normálnímu než rozdělení jednotlivých komponent Sjorig • používané míry „nenormality": - koeficient špičatosti - negativní normalizovaná entropie - aproximace negativní normalizované entropie mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách WiJ ^ Odhad nezávislých komponent-koeficient špičatosti kurt(s) = íE{s4}-3(íE{s2})2 • Gaussovo rozložení má koeficient špičatosti roven nule, zatímco pro jiná rozložení (ne pro všechna) je koeficient nenulový • při hledání nezávislých komponent hledáme extrém, resp. kvadrát koeficientu špičatosti veličiny s = Wj.x • výhody: - rychlost a relativně jednoduchá implementace • nevýhody: - malá robustnost vůči odlehlým hodnotám (pokud v průběhu měření získáme několik hodnot, které se liší od skutečných, výrazně se změní KŠ a tím i nezávislé komponenty nebudou odhadnuty korektně) - existence náhodných veličin s nulovým KŠ, ale nenormálním rozdělením Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách tyty] 15 Odhad nezávislých komponent - NNE >- • Negativní normalizovaná entropie (NNE) = negentropy • Informační entropie - množství informace náhodné veličiny • pro diskrétní náhodnou veličinu s je: H(s) = -Ej P(s=ai).log2P(s=ai), kde P(s=aj) je pravděpodobnost, že náhodná veličina S je rovna hodnotě aj • pro spojitou proměnnou platí , x p , X1 , x , H(s) = -Jp(s)log2p(s)ds -00 • entropie je tím větší, čím jsou hodnoty náhodné veličiny méně predikovatelné • pro normální rozd. má entropie největší hodnotu ve srovnání v dalšími rozd. • NNE: J(s) = H(sgauss) - H(s), kde sgauss je náhodná veličiny s normálním rozd. • výhody: - přesné vyjádření nenormality - dobrá robustnost vůči odlehlým hodnotám • nevýhody: časově náročný výpočet =^> snaha o vhodnou aproximaci NNE, aby byly zachovány její výhody a současně byl výpočet méně náročný mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä WiJ ^ Odhad nezávislých komponent-aproximace NNE • použití momentů vyšších řádů J( } w ±E{s3}2 + _±kurt(s)2 V 12 48 kde s je náhodná veličina s nulovou střední hodnotou a jednotkovým rozptylem » nevýhoda: - opět menší robustnost vůči odlehlým hodnotám • použití tzv. p-nekvadratických funkcí J(s)«XM*{0 je konstanta, Gj jsou šikovně navržené nelineární funkce a sgaussje normální náhodná proměnná, která spolu s s má nulovou střední hodnotu a jednotkový rozptyl. Je-li použita pouze jedna funkce G, pak je J(s) « [£{G(s)} - nebo G2(s) *-exp(-s2/2) a.-| « mu Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iJMJj 17 Analýza nezávislých komponent - příklad použití Puvodm EEG záznam FP1 ^ C3 ^^^^-^'^^^^^.^-------- PS P* , F9 T4 .^ywA'W^^'S^V*^^ V . . II PZ am 1 «C 200 00 |iV Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách iba IMJ 18 Analýza nezávislých komponent - příklad použití Nesravšie komponenty (ICs) J u *^ IC 7 >:'\'-Vv,-ty„v,i,1,-",. - ' W W*' -V '.'r -\ „V v_ V--' ■" V —*v-S." IC B v. ^v^'V> V'v''" V* -■ ■'Wajŕv _,"v--"A,>'/f'""'^"""".'''V^v.. fv^ »,>.V"'"^A-c/••v^'V-^.V..-'-'" ^ id Q * -,v ^/■^■^.y--''-''V^ lei? \*Avvv*^^^ 1 sec Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách 7ŠÄ "» 19 Analýza nezávislých komponent - příklad použití Nezávisle komponenty (IC4 a IC11 byty odstraněny) IC2 ^Vf^Y''^^ |C 3 .-----.— ------ ^-----------, ....-. — ^ - ■----... "—-■. IC4-- ic s *-V\v~^vv^'^ icio *.xjW/u*^r^^j^''^ IC11 - ici 2 /vVA-wv^^ * i j ici4 VW^'^W^^ IC19 A^-*vVyj/'^ lei? ^^Av^y^/^A v^.^'^v^'^'w^v^ Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^j^- ljM|/ 20 Analýza nezávislých komponent - příklad použití Rekonsímovamy EEGžaznam C4 lVsy.-.--'"^-.'-^..„-.-,v,.., P 3 ;W P* 01 !V..J'-/* ■ .^**' ľ*Sj .v. j t«< i'V' O 2 ft-.j— F 7 F8 \ T4 Te ■ FZ 1 CZ Vi . ,■ \A -- A.' *>■' '"--'•>-..'*"..... — "V —"' " v ŕ-^> "^"'->_ 1 sec 200.00 |jV Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách iba M) 21 Analýza nezávislých komponent - příklad použití FP1 ^J Puvodni E EG záznam Sekcnslľjovany E EG záznam FP2 Vr" ■j' F3 /.•wV^-**'*J>1'ŕSV-AJ^«V í„ F4 P3 P4 ,i)|^vV/WV*;W^ T4 v^^v"^™^^^^,,,^^ FP1 F3 ;i^r''~'''y^"''" C4 ^'■^'r,''",v^.Ivv.'v P4 ŕ-yi'---w.-.i".-V""-—-viA.*.i, 02 "V"-" ""'-^ .■.Jv1:rt,»"w'v,íu'^" F! T3 .-.^ -T4 -T5 W T6 FZ f... .- CZ ■■■-«,- P2 -íV% --'V*w . ^■„-'.■"■"■.■■■.^.- ■- mj.j, /.A"1-' - / \ & & O 20 40 60 100 120 140 160 180 200 220 O 0 ®@@ 'iMM Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách /BA Jmi) 23 Analýza nezávislých komponent - příklad 3 • Zadání: nalezněte nezávislé komponenty, které dokáží odlišit tři skupiny subjektů #N Age* [years] Gender F/M Education* [years] HC 57 68 (47-81) 40/17 16(12-21) ADmci 27 69 (52-86) 17/10 13 (10-22) AD 12 75 (55-88) 11/1 12 (8-25) Datová matice cd je1 voxel y Mixing matice komponenty V1 V2 ... K1 K2 ... S1 _ S1 S2 subjekty S2 c cd c o Q. O K1 K2 Source matice voxel y V1 V2 pro vizuahzaci pro nalezeni odlišujících komponent Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba Analýza nezávislých komponent - příklad 3 komponenta č. 1: 0.050 0,045 0,040 g 0,035 0,030 0,020 0,015 0 010 Box Plot of inverted filtered C01 grouped by Group Spread=tieet46 13v*96c v ■ . * • HC p = 0.0052 ADm ci Group AD □ Median □ 25%-75% y_ Min-M ax > Raw Data komponenta č.l ukazuje místa, kde je úbytek šedé hmoty v ADmci a v AD, nicméně v AD větší Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba Jmi) 25 Analýza nezávislých komponent - příklad 3 komponenta č. 2: 0,040 0,035 0,030 0,025 g 0,020 « 0,015 0,010 0,005 0,000 -0,005 HC Boxplot by Group Variable: filtered C02 p = 0.0089 ADmci Group AD d Median □ 25%-75% J! M i n -M a x • Raw Data komponenta 1.2 ukazuje místa, kde je úbytek šedé hmoty v ADmci a AD víceméně stejný Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách iba jmi) 26 Analýza nezávislých komponent - příklad 3 komponenta č. 6: 0,075 0,070 0,065 0,060 g 0,055 I ß 0,050 0,045 0,040 0,035 0,030 Boxplot by Group Variable: filtered C06 ,_ p = 0.0126 - • - 1—■ v' '—1 ■—t—' • * * □ - * HC ADmci Group AD □ Median □ 25%-75% J] Min-Max - Raw Data komponenta č.6 ukazuje místa, kde je úbytek šedé hmoty pouze u AD Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách iba jmi) 27 Vícerozměrné škálování Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä 28 Vícerozměrné škálování • anglicky Multidimensional Scaling (MDS) • přesnější název: nemetrické vícerozměrné škálování • cíl: dosáhnout řešení, které při nejmenším počtu vytvořených os zachovává pořadí vzdáleností objektů v původní asociační matici • jde o iterační algoritmus řešící převod libovolné asociační matice do Euklidovského prostoru (různé SW mohou dosahovat mírně odlišné výsledky) • vstupem analýzy je libovolná asociační matice (včetně nemetrických koeficientů) • výstupem je zadaný počet „faktorových os" • pokud je vstupní asociační matice maticí Euklidovských vzdáleností, je MDS totožná s PCA mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä j^i1 ^ Vícerozměrné škálování- příklad Data vzdáleností evropských měst - > rekonstrukce mapy STATISTICA - [Data: mesta_vzdalenosti [21v by 24c)] File Edit View Insert Format Statistics Data Mining Graphs Tools Data Window Help #f| Add to Workbook - Add to Report ' Add to MS Word ~ ť; Arial t 10 - BIU EEEEi + .0 .00 .00 +.0 «Üfi zl»=? UJÍ Vars ' C:\Users\Jarkovsky\C )esktop\FSTA\mesta_vzdalenosti.xlsx: Sheet 1 Barcelon 2 3 4 5 6 7 8 9 10 Belehrad Berlín Brusel Bukurešť I Budapešť Kodaň Dublin Hamburg Istanbul Barcelona 0 1528 1497 1062 1968 1498 1757 1469 1471 2230 Belehrad 1528 0 999 1372 447 316 1327 2145 1229 809 Berlín 1497 999 0 651 1293 589 354 1315 254 1735 Brusel 1062 1372 651 0 1769 1131 756 773 489 2178 Bukurešť 1958 447 1293 1769 0 539 1571 2534 1544 445 Budapešť 1498 316 689 1131 639 0 1011 1894 927 1064 Kodaň 1757 1327 354 766 1571 1011 0 1238 287 2017 Dublin 1469 2145 1315 773 2534 1894 1238 0 1073 2950 Hamburg 1471 1229 254 489 1544 927 287 1073 0 1983 Istanbul 2230 809 1735 2178 445 1054 2017 2950 1983 0 Kiev 2391 976 1204 1836 744 894 1326 2513 1440 1052 Londýn 1137 1688 929 318 2088 1450 955 452 720 2495 Madrid 504 2026 1867 1314 2469 1975 2071 1449 1785 2734 Miláno 725 885 840 696 1331 788 1157 1413 900 1669 Moskva 3006 1710 1607 2253 1497 1565 1558 2792 1779 1753 Mnichov 1054 773 501 601 1186 553 838 1374 610 1582 Paříž 831 1445 876 261 1859 1247 1025 776 744 2253 Praha 1353 738 280 721 1076 443 633 1455 492 1507 Rím 856 721 1181 1171 1137 811 1529 1882 1307 1373 Saint Petersburg 2813 1797 1319 1903 1740 1556 1143 2314 1414 2099 Sofia 1745 329 1318 1597 296 529 1535 2471 1554 502 Stockholm 2276 1620 810 1280 1742 1316 521 1526 809 2171 Vídeň 1347 489 523 914 855 216 858 1680 742 1273 Varšava 1862 826 516 1159 946 545 657 1823 750 1386 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách iba smi) 30 Vícerozměrné škálování- příklad >- • kvalita dodržení pořadí vzdáleností v datech při daném počtu os je kontrolována Shepardovým diagramem -> jedna osa není dostačující (data příliš daleko od diagonály), zatímco dvě osy jsou v tomto případě dostačující mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä j^i1 ^ Vzdálenosti v původních datech a vytvořených faktorových osách ) 0 0 ><* 9 o 3 JO O as. 5°°° IL ° v 0 > MDS2osy n O <*> 0 0_ _ 0 B80* jo© Rl ( 8> 0 > MDS 1 osa Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba ^ Reprezentace výstupu 1.2 1.0 0.8 -1.2 Stockholm Saint Petersburg Dublin o o o Kc daň o Dskva -----o t. onayn o Rri icol Hamburg o rlín > Van lvi Dl Uocl o Paříž Bei c šava o R-c < c lha 3 > Mnichov o \ /ídeň rxicv O -------------Madrid o Milá c no i Budapešť o Barcelona o Bělehrad Řím o o o. Bukurešť 0 Ol )Tia 0 Istanbul o -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba Jmi) 33 Reprezentace výstupu mu Koritaková, Dušek: Pokročilé metody analýzy dat v neurovědách $ä WtJ ^ Varietní učení Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^Ml1 ^ Úvod - redukce dimenzionality • klasické metody redukce dimenzionality: - PCA (principal component analysis) - snaha o nalezení „podstruktury" (embedding) v datech tak, aby byl zachován rozptyl - MDS (multidimensional scaling) - snaha o nalezení „podstruktury" v datech tak, aby byly zachovány vzdálenosti mezi body; ekvivalentní s PCA při použití Euklidovské vzdálenosti Swiss roll tyto klasické metody redukce dimenzionality nedokáží zachytit složité nelineární struktury -> metody varietního učení Tenenbaum et al. 2000, Science Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba IMJ 36 Metody varietního učení anglicky Manifold Learning metody pro nelineární redukci a reprezentaci dat manifold = „nadplocha" - čáry a kruhy jsou ID nadplochy, koule je příklad 2D nadplocha základní metody varietního učení: 1. ISOMAP (Tenenbaum et al. 2000) 2. Metoda lokálně lineárního vnoření = LLE (Roweis & Saul 2000) další metody varietního učení: Laplacian Eigenmaps, Sammon's Mapping, Kohonen Maps, Autoencoders, Gaussian process latent variable models, Curvilinear component analysis, Curvilinear Distance Analysis, Kernel Principal Component Analysis, Diffusion Maps, Hessian LLE, Modified LLE, Local Tangent Space Alignment, Local Multidimensional Scaling, Maximum Variance Unfolding, Data-Driven High Dimensional Scaling, Manifold Sculpting, RankVisu některé z manifold learning metod implementovány v mani.m demu mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ba j^i1 ^ ISOMAP metoda • založena na MDS • ISOMAP = isometric feature mapping • snaha o zachování vnitřní geometrie dat, která je zachycena pomocí geodézních vzdáleností (geodesis distance) založených na hledání nejkratších cest v grafu s hranami spojujícími sousední datové body abc Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction mu +ťt".,, Koritaková, Dušek: Pokročilé metody analýzy dat v neurovědách ^j^- iJMJj 38 ISOMAP metoda - algoritmus se 3 kroky »- 1. Vytvoření grafu spojujícího sousední objekty: • nejprve nutno vypočítat vzdálenosti D(xi,x;) mezi všemi objekty • poté dojde ke spojení objektů tak, že se y-tý objekt spojí s těmi objekty, jejichž vzdálenost je menší než e (v případě £-ISO MAP), nebo s jeho k nejbližšími sousedy (v případě /c-ISOMAP) 2. Výpočet geodézních vzdáleností DG(xifXj} mezi všemi objekty nalezením nejkratší cesty v grafu mezi danými objekty - iniciální nastavení DG(xif x;) závisí na tom, jestli jsou objekty spojené hranou či nikoliv: • pokud objekty spojeny hranou: Dg(xí,Xj) = D(xí,Xj) • pokud ne: Dg(xí,Xj) = oo poté je pro každé k = 1,2,...,N nahrazena vzdálenost Dg(xí,Xj) hodnotou min(DG(x£,x/) ,DG(xifxk) + DG(xk,Xj) ). 3. Aplikace nemetrického vícerozměrného škálování (MDS) na matici geodézních vzdáleností - tzn. transformace dat do Euklidovského prostoru tak, aby byly co nejlépe zachovány geodézní vzdálenosti. Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction mu ^,h"w Koritaková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä j^i1 ^ ISOMAP metoda - ukázka 1 Výsledek /c-ISOMAP algoritmu u 698 obrazů tváří a) i Q) '03 Q) O 'N O Q. 'E '03 Q) LI U bi I—r E r •K ti m* t;a i. Ha i—j— směr osvětlení pravolevé natočení tváře Interpolace podél os x a y v podprostoru obrazů tváří Výsledkem je redukce původních 4096 proměnných (obrazy měly rozměry 64 x 64 pixelů) na pouze tři komponenty Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ba WiJ ^ ISOMAP metoda - ukázka 2 Výsledek ISOMAP algoritmu u obrazů ručně psaných číslic b Bottom loop articulation o -i r r 2 9 . : ■ * Q H S m* M -*IH v*-; El " Et;>> El) • • ■ El. ■ ..* .** ASI* ~F?1.-; bl ■ 5 2 * 2 Interpolace podél osx a y v podprostoru obrazů číslic Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba Jmi) 4i Metoda lokálně lineárního vnoření (LLE) >- • Locally Linear Embedding (LLE) • založena na zachování mapování sousedů (neighborhood-preserving mapping) • LLE rekonstruuje globální nelineární struktury z lokálních lineárních fitů Černě vyznačeno okolí (sousedi) jednoho bodu. Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding Koritaková, Dušek: Pokročilé metody analýzy dat v neurovědách I^J/ 42 LLE - algoritmus (T) S&lůct neighbor* o * * O O ® Reconstruct with linear weights o o Oo k ■ ® Map to embedded coordinates 1. Výběr k nejbližších sousedů. 2. Rekonstrukce objektů z jejich sousedů - cílem je nalezení vah Wy tak, aby rekonstrukční chyby byly co nejmenší, tzn. snažíme se minimalizovat výraz s(W) = . .2 Zí|Xj — Lj Wij X/l / přičemž součet vah Wjj musí být roven 1; váhy jsou invariantní vůči rotaci, přeškálování a translaci objektů a jejich sousedů. 3. Mapování do „nadplochy" s nižší dimenzionalitou (lineární mapování - skládající se z translací, rotací a přeškálování) pomocí výpočtu vlastních vektorů Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 7ba 9 43 LLE-ukázka 1 Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding Koritaková, Dušek: Pokročilé metody analýzy dat v neurovědách $a 44 LLE - ukázka 2 Výsledek LLE algoritmu u hodnocení počtu a výskytu slov v encyklopedii master image television .film • color images tube. . radio COlrjrs * • light glass "b" y . painting acadeniv^ 9ľ f, . ' gallery _ • m artists decorative* fine •* •painter scenes ^portrait S0UIld» styles*'^™0 LANDSCAPE- #£[£7™ pieĽefde^FIGUR^ garden • florence outsíltóf #«1« s elalxirate iarchi t eel objects ^'^Tradit ions , . -TĽnaisíiitnĽĽ subject • * design r • • classical reflected conlemporarv london pari s medieval agĽS#ri ALLAN middle HAL Y Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding Koritaková, Dušek: Pokročilé metody analýzy dat v neurovědách iba 45 Výhody a nevýhody ISOMAP a LLE výhody a nevýhody ISOMAP: + zachovává globální strukturu dat + málo parametrů - citlivost k šumu - výpočetně náročné výhody a nevýhody Locally Linear Embedding (LLE): + rychlý + jeden parametr + jednoduché operace lineární algebry - může zkreslit globální strukturu dat Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ Další práce * Laplacian Eigenmaps for Dimensionality Reduction and Data Representation (Belkin & Niyogi 2003): - snaha o zachování mapování sousedů jako u Locally Linear Embedding - podobný algoritmus jako LLE, ale používá se zde výpočet vlastních vektorů a vlastních čísel s využitím Laplaciánu grafu - souvislost s klastrováním - lokální přístup k redukci dimenzionality způsobuje přirozené klastrování dat (klastrování tedy nastává u Laplacian Eigenmaps a LLE, nenastává u ISOMAP, protože to je globální metoda) * Manifold Learning for Biomarker Discovery in MR Imaging (Wolz et al. 2010) - použití Laplacian eigenmaps u obrazů pacientů s Alzheimerovou chorobou (data ADNI) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ba j^i1 ^ Korespondenční analýza Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Korespondenční analýza • anglicky Correspondence Analysis (CA) • cíl: nalezení vztahu mezi řádky a sloupci kontingenční tabulky • vstupní data: - tabulka obsahující souhrny proměnných (počty, průměry) za skupiny subjektů/objektů • výstupy analýzy: - vztahy všech původních faktorů a/nebo skupin subjektů v jednoduchém xy grafu • kritické problémy analýzy - skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou - obtížná interpretace velkého množství malých skupin subjektů • Výpočet probíhá prostřednictvím rozkladu na singulární hodnoty (singular value decomposition) na matici chí-kvadrát vzdáleností (tedy na matici příspěvků buněk tabulky k celkovému chí-kvadrátu obdobně jako v klasickém testu dobré shody na kontingenční tabulce) mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä j^i1 ^ Analýza kontingenčních tabulek jako princip výpočtu vícerozměrných analýz Počet pacientů s nežádoucími účinky na typu léčby lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (typ léčby - lék A, lék B) a sloupci (nežádoucí účinky - ano, ne) je velikost chí-kvadrátu I pozorovaná očekávaná I I četnost ~ četnost I očekávaná četnost Počítáno pro každou buňku tabulky © ^^^^ 10 0 B 0 10 9 © ^^^^ ^^^^ B 5 5 Pozorovaná tabulka Očekávaná tabulka Hodnota chí-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu nežádoucích účinků a typu léčby) od situace, kdy mezi řádky a sloupci (nežádoucími účinky a typem léčby) není žádný vztah mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä WiJ Princip korespondenční analýzy Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě Teoretická Výstupy korespondenční analýzy Tabulka 1: Zastoupení třech druhů ptáků na třech lokalitách. Druh 1 Sturnus vulgaris Druh 2 Friflqiiia coefebs Druh 3 Poruš major Celkem Lokalita A Lokalita B Lokalita C 1 5 2 5 4 i 12 8 o E ■O 0.1 Vzájemná pozice faktorů a skupin —" "Si 0,0 objektů/subjektů: vzájemnou pozici lze interpretovat CM — o II -0,1 -0,3 Variabilita vyčerpaná danou faktorovou osou 0,4 0,3 0,2 0,1 0,0 0,1 0,2 0,3 1. ordinační osa A., = 0,043 (79,75% celkové inerce) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba 0,4 W 52 Kanonická korelační analýza Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách Kanonická korelační analýza anglicky Canonical Correlation Analysis (CCorA) cíl: nalezení maximální lineární korelace mezi dvěma sadami proměnných (tzn. zjištění, zda se jedna skupina proměnných chová stejně jako druhá skupina proměnných pro ty samé objekty, a pokud ano, co je podstatou této shody) vstupem do CCorA dvě matice: - se vzájemně závislými proměnnými - nebo jedna matice se závisle proměnnými a jedna s nezávisle proměnnými (v tom případě velmi podobné jako RDA) princip: CCorA hledá lineární kombinaci proměnných z první sady a lineární kombinaci proměnných z druhé sady, které mají maximální korelaci mezi sebou CCorA je zobecněním vícerozměrné lineární regrese, která hledá závislost pouze jedné závisle proměnné na sadě nezávislých proměnných příklad použití: hledání vztahu skupiny rizikových faktorů a skupiny symptomů nemoci mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^bä WiJ Kanonická korelační analýza - předpoklady data musí být kvantitativní data nesmí obsahovat odlehlé hodnoty (proměnné ale nemusí mít nutně normální rozdělení) počet proměnných první sady plus počet proměnných druhé sady musí být menší než počet objektů proměnné musí mít mezi sebou lineární vztah (ne nelineární) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iJMjj 55 Redundanční analýza Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä 56 Redundanční analýza anglicky Redundancy Analysis (RDA) cíl: zjištění závislosti jedné skupiny proměnných na druhé skupině proměnných vhodná v případech, kdy mají dvě sady proměnných lineární vztah dává podobné výsledky jako kanonická korelační analýza princip: RDA je v podstatě vícerozměrnou regresní analýzou, která je následovaná analýzou hlavních komponent předpoklady: stejné jako u PCA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Redundanční analýza - označení a postup Označení: X - matice nezávisle proměnných; Y - matice závisle proměnných Postup: 1. regrese každé závisle proměnné Yj na sadě nezávislých proměnných X pomocí vícerozměrné regrese a získání regresních koeficientů 2. PCA na sadě regresních koeficientů z vícerozměrné regrese a získání matice kanonických vlastních vektorů 3. použití kanonických vlastních vektorů k získání skóre objektů buď ve faktorovém prostoru X (skóre označovány jako lineární kombinace), nebo v prostoru závislých proměnných Y (skóre označovány jako vážené průměry) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Metoda parciálních nejmenších čtverců Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Metoda parciálních nejmenších čtverců • anglicky Partial Least Squares (PLS) • cíl: zjištění vztahu (kovariance) mezi dvěma sadami proměnných (např. mezi funkčními obrazovými daty a behaviorálními daty) • lze rovněž srovnávat skupiny mezi sebou - lze srovnat i více skupin (při porovnávání více skupin nedetekuje pouze rozdílné patterny mezi skupinami, ale i podobné či stejné) • vhodné i pouze jako doplňková analýza, dokonce se doporučuje, aby byla v kombinaci s nějakým dalším typem analýzy • reference pro využití PLS v neurozobrazování: Mcintosh, A.R., Bookstein, R, Haxby, J., Grady, C, 1996. Spatial pattern analysis of functional brain images using partial least squares. Neuroimage 3, 143-157 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ PLS - metody PLS PLSC: PLS Correlation Behavior PLSC Task PLSC Seed PLSC Multi-Table PLSC Contrast Task PLSC Mean-centered Task PLSC Non-rotated Task PLSC < PLSR:PLS 1 Regression Analyzes information ► common to brain & behavior/design Analyzes brain with contrasts Analyzes group differences w Analyzes brain with contrasts w Analyzes brain connectivity patterns Analyzes relationships > between brain & several data tables Predicts behavior/design from brain PLS-PM: PLS Path Modeling Models complex relationship between multiple variables or data tables Fig. I.The PLS family. Krishnan, A., Williams, L.J., Mcintosh, A.R., Abdi, H., 2011. Partial least squares (PLS) methods for neuroimaging: a tutorial and review. Neuroimage 56 (2), 455-475. m f...... Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ba j^i1 ^ PLSC - princip i. 2. Výpočet matice R - ukazuje vztah mezi maticemi X a Y (korelace, pokud X a Y předem standardizovány; kovariance, pokud X a Y jen centrovány) Behaviorálnídata subjekty Obrazová data voxely voxely (pxn) (pxv) (n x v) Rozklad matice R na UxSxVT pomocf SVD (singular value decomposition) voxely U (pxv) (P x P) (pxv) (v x v) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba jmi) 62 PLSC - výstup voxel y (P xv) u (P x v) .1 .1 ..lil V každém sloupci váhy odpovídající nalezeným korelačním vzorům mezi obrazovými a behaviorálními daty * _VI_ (v x v) _v tí * mm ŕ 'i V každém řádku váhy pro korelaci s nalezeným behaviorálním vzorem v jednotlivých voxelech S - diagonální matice singulárních hodnot (s1 > s2 > ... > sp), odpovídajících kovarianci jednotlivých párů latentních proměnných. Z těchto hodnot lze odvozovat jakousi významnost dané latentní proměnné. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba Jmi) 63 PLSC - optimalizace >- Cílem PLSC je nalezení takových párů latentních proměnných, které: 1. Mají vzájemnou maximální kovarianci 2. Pro index \x a l2 ,kdy \x *12, jsou latentní vektory nekorelované 3. Koeficienty u u a v jsou normalizovné Latentní proměnné .... /fx/ — Xv^ and — Yu/ První podmínka .... cov^/X/í/Y/^cr ^xyAv — max Druhá podmínka .... /x//Y/ — 0 when / * / Třetí podmínka .... u^u^ = v^v/ = 1 ZSVD plyne, že kovariance mezi dvěma latentními proměnnými je rovna příslušné singulární hodnotě s. J* s? _Ä ďX/* X/ — °/ mu ^,h"w Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách WiJ ^ Významnost latentní proměnné • umožní určit, jaké proměnné interpretovat • významnost testována pomocí permutací - permutace v matici Y - matice s behaviorálními daty • pro každou permutaci se opět vypočte PLSC a p-hodnota testu pak odpovídá pravděpodobnosti, že náhodně sestavená data měla vyšší singulární hodnotu u dané latentní proměnné než v originálním datovém souboru W 65 Stabilita prostorového vzorce • pro zjištění stability nalezených výsledků v závislosti na obrazech vstupujících do analýzy se dělají bootrapové výběry (řádově stovky až tisíce náhodných výběrů s vracením) - opět spočítáno PLSC • stabilní latentní proměnné pak mají v daném voxelu přes všechny výběry menší směrodatnou odchylku • poměr původní váhy z originálního PLSC k odhadnuté směrodatné odchylce se pak chová jako z-score -> možnost vybrat pouze ty voxely, které jsou stabilní (např. s tímto poměrem > 1.96) • z boostrapových výběrů lze také odhadnout velikost intervalu spolehlivosti pro jednotlivé korelace behaviorálních dat s obrazovými -> pokud obsahují 0, pak danou behaviorální proměnnou nemá moc cenu interpretovat i Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách WiJ ^ Ordinační analýzy - shrnutí analýza hlavních komponent, faktorová analýza, korespondenční analýza, multidimensional scaling a metody varietního učení se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os metody se liší v logice tvorby těchto os - Maximální variabilita (analýza hlavních komponent, korespondenční analýza) - Maximální interpretovatelnost os (faktorová analýza) - Převod asociační matice do Euklidovského prostoru (vícerozměrné škálování) redundanční analýza, kanonická korelační analýza a metoda parciálních nejmenších čtverců se snaží nalézt vztah mezi dvěma sadami vícerozměrných dat Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách' byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU" Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^