"P, m 4 IV A RNDr. Eva Koritáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. Blok 6 Ordinační analýzy II Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 2 Osnova i- 1. Analýza nezávislých komponent (ICA) 2. Vícerozměrné škálování (MDS) 3. Varietní učení (manifold learning) 4. Korespondenční analýza (CA) 5. Metoda parciálních nejmenších čtverců (PLS) 6. Redundanční analýza (RDA) 7. Kanonická korelační analýza (CCorA) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba ^ Schéma analýzy a klasifikace dat - opakování Data I Předzpracování I Redukce I Klasifikace Ukázka - kognitivní data apod. A B C D E 1 id vek pohlaví výska vaha 2 1 38 Z 164 45 3 2 36 M 9C 4 3 26 Z 17S 7C A B C 1 id vek pohlaví výska vaha 2 1 33 Z 164 45 3 2 36 M 167 90 4 3 26 Z 17S 70 B C 1 D E id vek pohlaví výska vaha 2 1 3B Z 164 45 3 36 M 167 90 4 3 26 Z 178 70 nebo Ukázka - obrazová data Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 4 Extrakce proměnných - opakování >- • jednou z možných přístupů redukce dat (vedle selekce) • transformace původních proměnných na menší počet jiných proměnných =^> tzn. hledání (optimálního) zobrazení Z, které transformuje původní p-rozměrný prostor (obraz) na prostor (obraz) m-rozměrný (m < p) • pro snadnější řešitelnost hledáme zobrazení Z v oboru lineárních zobrazení • metody extrakce proměnných: - analýza hlavních komponent (PCA) - faktorová analýza (FA) - analýza nezávislých komponent (ICA) - korespondenční analýza (CA) - vícerozměrné škálování (MDS) - redundanční analýza (RDA) - kanonická korelační analýza (CCorA) - manifold learning metody (LLE, Isomap atd.) - metoda parciálních nejmenších čtverců (PLS) • metody extrakce proměnných často nazývány jako metody ordinační analýzy MU Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 5 Analýza nezávislých komponent Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent (ICA) Princip: Hledání statisticky nezávislých komponent v původních datech. Výhody: + analýza na celém mozku, vícerozměrná metoda + dokáže vytvořit lépe interpretovatelné komponenty než PCA Nevýhody: - velmi časově náročná, předstupněm je redukce pomocí PCA je třeba expertní znalost pro výběr komponent Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ ^ Srovnání s analýzou hlavních komponent (PCA) Princip: Vytvoření nových proměnných (komponent) z původních proměnných tak, aby zůstalo zachováno co nejvíce variability. y2 PCA y2 Výhody: + analýza na celém mozku vícerozměrná metoda Nevýhody: - nevyužívá informaci o příslušnosti subjektů do skupin - potřebné určit, kolik hlavních komponent se použije pro transformaci Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 8 Analýza nezávislých komponent • anglicky Independent Component Analysis (ICA) x^t) = a^s^t) + a12.s2(t) x2(t) = a21.s1(t) + a22.s2(t) • úloha spočívá v nalezení originálních neznámých signálů z jednotlivých zdrojů s^t) a s2(t) máme-li k dispozici pouze zaznamenané signály x1(t) a x2(t) • ICA umožňuje určit koeficienty za předpokladu, že známé signály jsou dány lineárních kombinací zdrojových, a za předpokladu statistické nezávislosti zdrojů v každém čase t _ "i Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ ^ Analýza nezávislých komponent - model dat • mějme x =T(x1,x2,..v xm), což je m-rozměrný náhodný vektor x. = a-,orig s,orig+ a-.orig s.orig+ +a- orig s orig i = 12 m nebo maticově x = Aorig.sorig sorig je vektor originálních skrytých nezávislých komponent a s^^ jsou nezávislé komponenty (předpoklad vzájemně statisticky nezávislosti) Aorig je transformační matice • skryté nezávislé komponenty je možno vyjádřit pomocí vztahu: s = W.x • cíl: nalézt lineární transformaci (koeficienty transformační matice W) tak, aby vypočítané nezávislé komponenty s, byly vzájemně statisticky nezávislé [W = A-1] Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 10 Analýza nezávislých komponent - omezení pouze jedna originální nezávislá komponenta může mít normální rozložení pravděpodobnosti (pokud má více zdrojů normální rozložení, není ICA schopna tyto zdroje ze vstupních dat extrahovat) pro dané m-rozměrné obrazové vektory je ICA schopna najít pouze m nezávislých komponent nelze obecně určit polaritu nezávislých komponent nelze určit pořadí nezávislých komponent Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 11 Analýza nezávislých komponent - omezení původní neznámé signály měřené signály signály identifikované pomocí ICA A s-" m m m m m x t m m ~sr4o m m m *m »i-•-•-'-'-1 í f r rr rr rrr ® i—*—at » ifc i o w «§ tu ■» a* • ♦» ta» m » jsou identifikovány správné původní signály, ale pořadí signálů a jejich polarita je jiná než v původních datech Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 12 Odhad nezávislých komponent • optimalizace pomocí zvolené optimalizační (účelové, kriteriální, objektové) funkce u a) nalézt kriteriální funkci b) vybrat optimalizační algoritmus ad a) možnost ovlivnit statistické vlastnosti metody ad b) spojitá optimalizační úloha s „rozumnou" kriteriální funkcí - gradientní metoda, Newtonova metoda - ovlivňujeme rychlost výpočtu (konvergenci), nároky na paměť,... Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 13 Odhad nezávislých komponent-základní úvaha • nechť existuje m nezávislých náhodných veličin s určitými pravděpodobnostními rozděleními (jejich součet za obecných podmínek konverguje s rostoucím počtem sčítanců k normálnímu rozdělení - tzv. centrální limitní věta); • o vektoru x (který máme k dispozici) předpokládáme, že vznikl součtem nezávislých komponent sorig jí jednotlivé náhodné veličiny x, mají pravděpodobnostní rozdělení, které je „bližší" normálnímu než rozdělení jednotlivých komponent Sjorig • používané míry „nenormality": - koeficient špičatosti - negativní normalizovaná entropie - aproximace negativní normalizované entropie Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 14 Odhad nezávislých komponent-koeficient špičatosti kurt(s) = (E{s*}-3((E{s2})2 • Gaussovo rozložení má koeficient špičatosti roven nule, zatímco pro jiná rozložení (ne pro všechna) je koeficient nenulový • při hledání nezávislých komponent hledáme extrém, resp. kvadrát koeficientu špičatosti veličiny s = Wj.x • výhody: - rychlost a relativně jednoduchá implementace • nevýhody: - malá robustnost vůči odlehlým hodnotám (pokud v průběhu měření získáme několik hodnot, které se liší od skutečných, výrazně se změní KŠ a tím i nezávislé komponenty nebudou odhadnuty korektně) - existence náhodných veličin s nulovým KŠ, ale nenormálním rozdělením Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^ 15 Odhad nezávislých komponent-NNE ■ Negativní normalizovaná entropie (NNE) = negentropy • Informační entropie - množství informace náhodné veličiny ■ pro diskrétní náhodnou veličinu s je: H(s) = -Z, P(s=ai).log2P(s=ai), kde P(s=a,) je pravděpodobnost, že náhodná veličina S je rovna hodnotě a, ■ pro spojitou proměnnou platí , . r , X1 , x . H(s) = - Jp(s)Jog2p(s)ds -00 entropie je tím větší, čím jsou hodnoty náhodné veličiny méně predikovatelné pro normální rozd. má entropie největší hodnotu ve srovnání v dalšími rozd. NNE: J(s) = H(sgauss) - H(s), kde sgauss je náhodná veličiny s normálním rozd. výhody: - přesné vyjádření nenormality - dobrá robustnost vůči odlehlým hodnotám nevýhody: časově náročný výpočet =^> snaha o vhodnou aproximaci NNE, aby byly zachovány její výhody a současně byl výpočet méně náročný Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 16 Odhad nezávislých komponent-aproximace NNE • použití momentů vyšších řádů J( }, ±E{s3}2 _±kurt(s)2 W 12 1 ' 48 kde s je náhodná veličina s nulovou střední hodnotou a jednotkovým rozptylem • nevýhoda: - opět menší robustnost vůči odlehlým hodnotám • použití tzv. p-nekvadratických funkcí J(S)«Xki-[£{Gi(S)}-£{Gi(Sgauss)}]2 i=1 kde kj>0 je konstanta, G, jsou šikovně navržené nelineární funkce a sgauss je normální náhodná proměnná, která spolu s s má nulovou střední hodnotu a jednotkový rozptyl. Je-li použita pouze jedna funkce G, pak je J(s) * [wWŕ-*",^',/,l ' T3 ^ ^ v t .v^w^^^-'^-^ TS MT' v ^rv^^^-^^^'---- 1 S6C 200 00 |iV Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách mu ..... fcr W 'S Analýza nezávislých komponent-příklad použití Nezávisle komponenty (ICsi IC2 fl^y^/^^ "J Ih ici i Wnnr,wjiVMiyp^ h<_ | C1 J ■- ~- , -j;^. v .■ y- ../v^,-. v* .--w- v ■■- \-- ■■"■"ir" A4 _■ -a y■. -■ ^ - .'y—, -v1- ŕ/*--'- ~-. - ■■ ■ IC14 /"' Vy^V .-V- W|i V AV- ,\V VtV-.í*, .'Vr V" '"\.JV^'V'íÍAV(1"^^V'v'o/-'j l/V \;\*ý<Á"*- '^ľ^ff! V"v; J^A/^/^"*^ IC1 6 V^,,--^ -.Vť 1 sec Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách Analýza nezávislých komponent-příklad použití Nezávisle komponenty (IC4 a IC11 hyty odstraněny) IC2 '^'V^'/^t^'^^^ IC4-- IC C /v'V/í V, .-v—f l..v*-V^',,W,*<'/-rtV>v'''.V-, ft*-'vf,-.w-,*'-'«---<>'"v -■'■-v'-'-v-v-,„-.,*V-"~>'.-w,^ f.f^*., ŕ, ^ IC 7 k .■'v - ./vy,. '""s ŕ .rf'/'ť,-',/, M.'"ŕ"-jv" ' *"v / ,.'/">w"-> - v. wVy. r-"v. ■ A—* 'V' v V "Sn-v IC S *V^VVrV>^HM^ IC11 - 4- ici 2 /yVV;'Fv*V^^ * i j ici5 j-V^vV^'^^ -I-h 1 sec MU Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IJMjl 20 Analýza nezávislých komponent-přiklad použití Rekonstruovaný E EG aazriam PÁ , • ruH1' "#.'VV\ "*ÍW.l.^.l, C4 *y ------;^-..V ' .......-v*..,.-^-- •.■*.-A...-*rf^> v. .......... T 3 ■ y- •■ ' '"v ■ "■ 'V- '" ^ - - FZ .... -•---*• v.........______ CZ w--v-* . ............,...... P7 •./"-.•^■.•i-v,.»íV'T, +■ -+ 1 sec 20D 00 |jV Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách iba M 21 Analýza nezávislých komponent-příklad použití f p1 * ^"^-^^V.^^ lAl*..iM\-i.j. . . 1/ Puvodni E EG záznam \ju-w.- p4 .^4>V^^wAw^ Sekonslruovariy E EG záznam fp1 ,-ff"2 ,-. 02 ^'i^W^-^V^^^^^^vv^'^v^^ Fa yáthUláái ■■■■ 1 1 1 "■■ ■ ■ "'' ■11 ■1 L. t4 :JW^«,^"'^"^^v*,»v-*^v*y^^ fz /■^-■v'">'-VA'^1v.«-f-'-»ŕj.^ViV„t.^IVi_A__JfcJ1.^»i^iv^^^^.vv^w,,M^,1 cz f* p7 C3 .-.v'-™'" V*"* Pn,ív'ŕ,'iH,-*'"'t" *"* p4 ■.,-„-. a • a -.>. , .< - • " • '-v—- □1 ľV-J'-H .<■■""-"■ -■-"'■v .,»■„„ ^ j,. ..„,1,.V-\r'ŕ,«,v '■""■'■-■,'> F 7 ív - - •• - •'• sV , . z.'1--- 4- T3 ■ -j /- '"' .- " "A \<-—v._..- w......- v^"-' 1 ■» ■ v ~ T4 - , ■ • •'" •' - ----. ' • x. • • •. T6 W '" ^---.^...-•.■"■-.■•^*'V~-.» T B ■.- V' "" ' s -'1------"";-J ■ - . „ - ~, Z'/1- -■-> /v.' -y " -., fz f... - vy „.Sf. ,^ A'*—v. cz ••••••• " • ...................• V" 1 S6i! 1 56C 200.00 |lV Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách IBA W 22 Analýza nezávislých komponent - příklad 2 Figuře No. 2: Composite Viewer Components: 2 14 File Edit View Insert Tools Window Help GIFT-Help 1 D B? H & 0 O o Infomax o o FastICA o o Erica o o Simbec o o Evd o o Jade Opac o o Amuse o SDD ICA Semi-blind Infomax Constrained ICA (Spatial) Radical ICA Combi ICA-EBM FBSS Zadání: určete nezávislé komponenty ve fMRI datech zdravých subjektů, u nichž byl proveden vizuomotorický test. Řešení (s pomocí GIFT toolboxu v software MATLAB) http://mialab.mrn.org/software/gift/ Celkem 14 implementovaných ICA algoritmů v GIFT toolboxu: Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 23 Analýza nezávislých komponent - příklad 3 Zadání: nalezněte nezávislé komponenty, které dokáží odlišit tři skupiny subjektů #N Age* [years] Gender F/M Education* [years] HC 57 68 (47 - 81) 40/17 16 (12-21) ADmci 27 69 (52 - 86) 17/10 13 (10-22) AD 12 75 (55-88) 11/1 12 (8-25) Datová matice co voxely Mixing matice komponenty V1 V2 ... K1 K2 ... S1 _ S1 S2 subjekty S2 c CD C o Q. E o K1 K2 Source matice voxely V1 V2 pro vizualizaci pro nalezení odlišujících komponent Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 24 Analýza nezávislých komponent - příklad 3 komponenta č. 1: 0.050 0.045 0,040 O 0.035 0.030 0.020 0,015 0 010 Box Plot of inverted filtered C01 grouped by Group Spreadstieet46 13v*96c •ľk' HC p = 0.0052 ADm ci Group AD □ Median □ 25%-75% ~Y_ Min-M ax > Raw Data komponenta č.l ukazuje místa, kde je úbytek šedé hmoty v ADmci a v AD, nicméně v AD větší Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 25 Analýza nezávislých komponent - příklad 3 • komponenta č. 2: Boxplot by Group n Median □ 25%-7 5% H Min-Max • Raw Data komponenta č.2 ukazuje místa, kde je úbytek šedé hmoty v ADmci a AD víceméně stejný Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 26 Analýza nezávislých komponent - příklad 3 komponenta č. 6: 0,075 0,070 0,065 0,060 g 0,055 jd ß 0,050 0,045 0,040 0,035 0,030 HC Boxplot by Group Variable: filtered C06 p = 0.0126 A Dm ci Group AD □ Median □ 25%-75% J] Min-Max - Raw Data komponenta č.6 ukazuje místa, kde je úbytek šedé hmoty pouze u AD Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 27 Vícerozměrné škálování Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba ^ 28 Vícerozměrné škálování • anglicky Multidimensional Scaling (MDS) • přesnější název: nemetrické vícerozměrné škálování • cíl: dosáhnout řešení, které při nejmenším počtu vytvořených os zachovává pořadí vzdáleností objektů v původní asociační matici • jde o iterační algoritmus řešící převod libovolné asociační matice do Euklidovského prostoru (různé SW mohou dosahovat mírně odlišné výsledky) • vstupem analýzy je libovolná asociační matice (včetně nemetrických koeficientů) • výstupem je zadaný počet „faktorových os" • pokud je vstupní asociační matice maticí Euklidovských vzdáleností, je MDS totožná s PCA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä WíJ ^ Vícerozměrné škálování- příklad Data vzdáleností evropských měst - > rekonstrukce mapy STATISTICA - [Data: mesta_vzdalenosti [21v by 24c)] File Edit View Insert Format Statistics Data Mining Graphs Tools Data Window Help #4 Add to Workbook" Add to Report ' Add to MS Word ~ ti\ Arial t 10 - BIU EEEEi + .0 .00 .00 +.0 « f 1" fi zl »=? ÍÍÍ Vars ' C:\Users\Jarkovsky\C )esktop\FSTA\mesta_vzdalenosti.xlsx: Sheet 1 Barcelon 2 3 4 5 6 7 8 9 10 Belehrad Berlín Brusel Bukurešť |Budapešť Kodaň Dublin Hamburg Istanbul Barcelona 0 1528 1497 1062 1968 1498 1757 1469 1471 2230 Belehrad 1528 0 999 1372 447 316 1327 2145 1229 809 Berlín 1497 999 0 651 1293 589 354 1315 254 1735 Brusel 1062 1372 651 0 1769 1131 756 773 489 2178 Bukurešť 1958 447 1293 1769 0 539 1571 2534 1544 445 Budapešť 1498 316 689 1131 639 0 1011 1894 927 1064 Kodaň 1757 1327 354 766 1571 1011 0 1238 287 2017 Dublin 1469 2145 1315 773 2534 1894 1238 0 1073 2950 Hamburg 1471 1229 254 489 1544 927 287 1073 0 1983 Istanbul 2230 809 1735 2178 445 1054 2017 2950 1983 0 Kiev 2391 976 1204 1836 744 894 1326 2513 1440 1052 Londýn 1137 1688 929 318 2088 1450 955 452 720 2495 Madrid 504 2026 1867 1314 2469 1975 2071 1449 1785 2734 Miláno 725 885 840 696 1331 788 1157 1413 900 1669 Moskva 3006 1710 1607 2253 1497 1565 1558 2792 1779 1753 Mnichov 1054 773 501 601 1186 553 838 1374 610 1582 Paříž 831 1445 876 261 1859 1247 1025 776 744 2253 Praha 1353 738 280 721 1076 443 633 1455 492 1507 Rím 856 721 1181 1171 1137 811 1529 1882 1307 1373 Saint Petersburg 2813 1797 1319 1903 1740 1556 1143 2314 1414 2099 Sofia 1745 329 1318 1597 296 529 1535 2471 1554 502 Stockholm 2276 1620 810 1280 1742 1316 521 1526 809 2171 Vídeň 1347 489 523 914 855 216 858 1680 742 1273 Varšava 1862 826 516 1159 946 545 657 1823 750 1386 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 30 Vícerozměrné škálování- příklad >- • kvalita dodržení pořadí vzdáleností v datech při daném počtu os je kontrolována Shepardovým diagramem -> jedna osa není dostačující (data příliš daleko od diagonály), zatímco dvě osy jsou v tomto případě dostačující Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä WíJ ^ Vzdálenosti v původních datech a vytvořených faktorových osách vzdálenost (km) O s w w MDS 2 osy MDS 1 osa _||_li-1 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba IM) 32 Reprezentace výstupu 1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 -1.2 Stockholm Saint Petersburg Dublin o o o Kc )daň 0 M oskva o t_ ondýn o Dn i Cdl Hamburg o i—) _ lvi Dl Ubcl o Paříž Be c mrr ) Varšava o Pri < lha > Mnichov o \ /ídeň Q rxlov O -------------Madrid o Milí C ano Budapešť o Barcelone o 1 Bělehrac 1 Řím o ° Bukurešť 0 Ol JI Id 0 Istan o bul -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 Koritaková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 33 Reprezentace výstupu Varietní učení Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 35 Úvod - redukce dimenzionality • klasické metody redukce dimenzionality: - PCA (principal component analysis) - snaha o nalezení „podstruktury" (embedding) v datech tak, aby byl zachován rozptyl - MDS (multidimensional scaling) - snaha o nalezení „podstruktury" v datech tak, aby byly zachovány vzdálenosti mezi body; ekvivalentní s PCA při použití Euklidovské vzdálenosti Swiss roll tyto klasické metody redukce dimenzionality nedokáží zachytit složité nelineární struktury -> metody varietního učení Tenenbaum et al. 2000, Science Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba (Ml 36 Metody varietního učení anglicky Manifold Learning metody pro nelineární redukci a reprezentaci dat manifold = „nadplocha" - čáry a kruhy jsou ID nadplochy, koule je příklad 2D nadplocha základní metody varietního učení: 1. ISOMAP (Tenenbaum et al. 2000) 2. Metoda lokálně lineárního vnoření = LLE (Roweis & Saul 2000) další metody varietního učení: Laplacian Eigenmaps, Sammon's Mapping, Kohonen Maps, Autoencoders, Gaussian process latent variable models, Curvilinear component analysis, Curvilinear Distance Analysis, Kernel Principal Component Analysis, Diffusion Maps, Hessian LLE, Modified LLE, Local Tangent Space Alignment, Local Multidimensional Scaling, Maximum Variance Unfolding, Data-Driven High Dimensional Scaling, Manifold Sculpting, RankVisu některé z manifold learning metod implementovány v mani.m demu Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba 37 ISOMAP metoda • založena na MDS • ISOMAP = isometric feature mapping • snaha o zachování vnitřní geometrie dat, která je zachycena pomocí geodézních vzdáleností (geodesis distance) založených na hledání nejkratších cest v grafu s hranami spojujícími sousední datové body ABC Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction mu Koritaková, Dušek: Pokročilé metody analýzy dat v neurovědách ij^jj 38 ISOMAP metoda - algoritmus se 3 kroky i- 1. Vytvoření grafu spojujícího sousední objekty: • nejprve nutno vypočítat vzdálenosti D(xif x;) mezi všemi objekty • poté dojde ke spojení objektů tak, že se y-tý objekt spojí s těmi objekty, jejichž vzdálenost je menší než e (v případě f-ISOMAP), nebo s jeho k nejbližšími sousedy (v případě /c-ISOMAP) 2. Výpočet geodézních vzdáleností DG(xifxD mezi všemi objekty nalezením nejkratší cesty v grafu mezi danými objekty - iniciální nastavení DG{xifXj^ závisí na tom, jestli jsou objekty spojené hranou či nikoliv: • pokud objekty spojeny hranou: DG(xi,Xj>) = D(xj,x;) • pokud ne: Dg(xí,x;) = oo poté je pro každé k = 1,2,...,N nahrazena vzdálenost Dg(xí,x;) hodnotou mm(DG(xif Xj) , DG(xif xk) + DG(xk, x;) ). 3. Aplikace nemetrického vícerozměrného škálování (MDS) na matici geodézních vzdáleností - tzn. transformace dat do Euklidovského prostoru tak, aby byly co nejlépe zachovány geodézní vzdálenosti. Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä WíJ ^ ISOMAP metoda - ukázka 1 Výsledek /c-ISOMAP algoritmu u 698 obrazů tváří a) i Q) 'CO Q) O 'n 'CO Q) □ Ľ1 n. t; U L L Ji Interpolace podél os x a y v podprostoru obrazů tváří Výsledkem je redukce původních 4096 proměnných (obrazy měly rozměry 64 x 64 pixelů) na pouze tři komponenty r~i směr osvětlení pravolevé natočení tváře Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 40 ISOMAP metoda - ukázka 2 Výsledek ISOMAP algoritmu u obrazů ručně psaných číslic B Bottorri loop articulation £ o -i y r cd O. ■■■■ □ Rl Kd> r.v 121 * bafl «2 ^ "i la a. 5 ■■li- 2 Interpolace podél osx a y v podprostoru obrazů číslic 2.12-1^1^1^ Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 41 Metoda lokálně lineárního vnoření (LLE) >- • Locally Linear Embedding (LLE) • založena na zachování mapování sousedů (neighborhood-preserving mapping) • LLE rekonstruuje globální nelineární struktury z lokálních lineárních fitů Černě vyznačeno okolí (sousedi) jednoho bodu. Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding mu Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách J^J 42 LLE - algoritmus (T) Sůlůet neighbors o ® an struct with linear weights ■■^"hty"' ® Map to embedded coordinates 1. Výběr k nejbližších sousedů. 2. Rekonstrukce objektů z jejich sousedů - cílem je nalezení vah tak, aby rekonstrukční chyby byly co nejmenší, tzn. snažíme se minimalizovat výraz s(W) = Zí|xj — Lj Wij xy | , přičemž součet vah Wjj musí být roven 1; váhy jsou invariantní vůči rotaci, přeškálování a translaci objektů a jejich sousedů. 3. Mapování do „nadplochy" s nižší dimenzionalitou (lineární mapování - skládající se z translací, rotací a přeškálování) pomocí výpočtu vlastních vektorů Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách LLE-ukázka 1 Výsledek LLE algoritmu u obrazů tváří tm i. • • «1 •v - Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 44 LLE - ukázka 2 Výsledek LLE algoritmu u hodnocení počtu a výskytu slov v encyklopedii master image television (íilm i image i acadcniv. paintings •gallery tube. .radio colors * • light furniture j • .artists decorative, ^t^t fine •painter scenes portrait S0Und» styles*'^™0 LAN DSCAl't* *£SRRS garden • fbrence . glass _ ýSpi outsmfflrráf .baroque "lalxiratey iirchi teel liispirtx: sTaifdinj elalxirate objects e^(WEdiI1I>J1> . . -renaissance subject • * design • • classical reflected contemporary London pari 5 medieval ages ITALIAN middle ITALY * • Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W « Výhody a nevýhody ISOMAP a LLE výhody a nevýhody ISOMAP: + zachovává globální strukturu dat + málo parametrů - citlivost k šumu výpočetně náročné výhody a nevýhody Locally Linear Embedding (LLE): rychlé + jeden parametr + jednoduché operace lineární algebry - může zkreslit globální strukturu dat Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách híA IMJ 46 Další práce * Laplacian Eigenmaps for Dimensionality Reduction and Data Representation (Belkin & Niyogi 2003): - snaha o zachování mapování sousedů jako u Locally Linear Embedding - podobný algoritmus jako LLE, ale používá se zde výpočet vlastních vektorů a vlastních čísel s využitím Laplaciánu grafu - souvislost s klastrováním - lokální přístup k redukci dimenzionality způsobuje přirozené klastrování dat (klastrování tedy nastává u Laplacian Eigenmaps a LLE, nenastává u ISOMAP, protože to je globální metoda) • Manifold Learning for Biomarker Discovery in MR Imaging (Wolz et al. 2010) - použití Laplacian eigenmaps u obrazů pacientů s Alzheimerovou chorobou (data ADNI) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba 47 Korespondenční analýza Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA~ ^ 48 Korespondenční analýza • anglicky Correspondence Analysis (CA) • cíl: nalezení vztahu mezi řádky a sloupci kontingenční tabulky • vstupní data: - tabulka obsahující souhrny proměnných (počty, průměry) za skupiny subjektů/objektů • výstupy analýzy: - vztahy všech původních faktorů a/nebo skupin subjektů v jednoduchém xy grafu • kritické problémy analýzy - skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou - obtížná interpretace velkého množství malých skupin subjektů • Výpočet probíhá prostřednictvím rozkladu na singulární hodnoty (singular value decomposition) na matici chí-kvadrát vzdáleností (tedy na matici příspěvků buněk tabulky k celkovému chí-kvadrátu obdobně jako v klasickém Pearsonově chí-kvadrát testu u kontingenční tabulky) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä WíJ ^ Analýza kontingenčních tabulek jako princip výpočtu vícerozměrných analýz Počet pacientů s nežádoucími účinky na typu léčby lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (typ léčby - lék A, lék B) a sloupci (nežádoucí účinky - ano, ne) je velikost chí-kvadrátu I pozorovaná očekávaná četnost ~ četnost I če J očekávaná četnost Počítáno pro každou buňku tabulky 9 Ä © ^^^^ 10 0 B 0 10 9 © ^^^^ ^^^^ B 5 5 Pozorovaná tabulka Očekávaná tabulka Hodnota chí-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu nežádoucích účinků a typu léčby) od situace, kdy mezi řádky a sloupci (nežádoucími účinky a typem léčby) není žádný vztah _ "u ...... Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba 50 Princip korespondenční analýzy • Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě Realita Teoretická rovnanost Vs. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 51 Výstupy korespondenční analýzy Tabulka 1: Zastoupení třech druhů ptáků na třech lokalitách. Druh 1 Sturmis vulgaris Druh 2 RirtgiUa coefebs Druh i Paws major Celkem Lokalita A Lokalita B Lokalita C 3 5 2 Celktr Vzájemná pozice faktorů a skupin objektů/subjektů: vzájemnou pozici lze interpretovat 4 i 4_ O 0,1 Variabilita vyčerpaná danou faktorovou osou Fringilla coelebs C ♦ Parus major 1. ordinační osa K-i = 0,043 (79,75% celkové inerce) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba W 52 Kanonická korelační analýza Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách Kanonická korelační analýza • anglicky Canonical Correlation Analysis (CCorA) • cíl: nalezení maximální lineární korelace mezi dvěma sadami proměnných (tzn. zjištění, zda se jedna skupina proměnných chová stejně jako druhá skupina proměnných pro ty samé objekty, a pokud ano, co je podstatou této shody) • vstupem do CCorA dvě matice: - se vzájemně závislými proměnnými - nebo jedna matice se závisle proměnnými a jedna s nezávisle proměnnými (v tom případě velmi podobné jako RDA) • princip: CCorA hledá lineární kombinaci proměnných z první sady a lineární kombinaci proměnných z druhé sady, které mají maximální korelaci mezi sebou • CCorA je zobecněním vícerozměrné lineární regrese, která hledá závislost pouze jedné závisle proměnné na sadě nezávislých proměnných • příklad použití: hledání vztahu skupiny rizikových faktorů a skupiny symptomů nemoci Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 54 Kanonická korelační analýza - předpoklady » data musí být kvantitativní 1 data nesmí obsahovat odlehlé hodnoty (proměnné ale nemusí mít nutně normální rozdělení) » počet proměnných první sady plus počet proměnných druhé sady musí být menší než počet objektů 1 proměnné musí mít mezi sebou lineární vztah (ne nelineární) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA W 55 Redundanční analýza Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 56 Redundanční analýza anglicky Redundancy Analysis (RDA) cíl: zjištění závislosti jedné skupiny proměnných na druhé skupině proměnných vhodná v případech, kdy mají dvě sady proměnných lineární vztah dává podobné výsledky jako kanonická korelační analýza princip: RDA je v podstatě vícerozměrnou regresní analýzou, která je následovaná analýzou hlavních komponent předpoklady: stejné jako u PCA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ibä ^ 57 Redundanční analýza - označení a postup t- Označení: X - matice nezávisle proměnných; Y - matice závisle proměnných Postup: 1. regrese každé závisle proměnné Y, na sadě nezávislých proměnných X pomocí vícerozměrné regrese a získání regresních koeficientů 2. PCA na sadě regresních koeficientů z vícerozměrné regrese a získání matice kanonických vlastních vektorů 3. použití kanonických vlastních vektorů k získání skóre objektů buď ve faktorovém prostoru X (skóre označovány jako lineární kombinace), nebo v prostoru závislých proměnných Y (skóre označovány jako vážené průměry) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA~ ^ 58 Metoda parciálních nejmenších čtverců Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Metoda parciálních nejmenších čtverců • anglicky Partial Least Squares (PLS) • cíl: zjištění vztahu (kovariance) mezi dvěma sadami proměnných (např. mezi funkčními obrazovými daty a behaviorálními daty) • lze rovněž srovnávat skupiny mezi sebou - lze srovnat i více skupin (při porovnávání více skupin nedetekuje pouze rozdílné patterny mezi skupinami, ale i podobné či stejné) • vhodné i pouze jako doplňková analýza, dokonce se doporučuje, aby byla v kombinaci s nějakým dalším typem analýzy • reference pro využití PLS v neurozobrazování: Mcintosh, A.R., Bookstein, F., Haxby, J., Grady, C, 1996. Spatial pattern analysis of functional brain images using partial least squares. Neuroimage 3,143-157 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba IM) 60 PLS - metody PLS PLSC: PLS Correlation Behavior PLSC Task PLSC Seed PLSC Multi-Table PLSC Contrast Task PLSC Mean-centered Task PLSC Non-rotated Task PLSC Analyzes information -> common to brain & behavior/design Analyzes brain with contrasts Analyzes group differences w Analyzes brain with contrasts Analyzes brain connectivity patterns Analyzes relationships -> between brain & several data tables ( PLSRiPLS Regression ^ Predicts behavior/desian from brain f PLS-PM: PLS Models complex _^ relationship between Path Modeling multiple variables or data tables Fig. I. The PLS family. Krishnan, A., Williams, L.J., Mcintosh, A.R., Abdi, H., 2011. Partial least squares (PLS) methods for neuroimaging: a tutorial and review. Neuroimage 56 (2), 455-475. m Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách íba m 6i PLSC- princip i. 2. Výpočet matice R - ukazuje vztah mezi maticemi X a Y (korelace, pokud X a Y předem standardizovány; kovariance, pokud X a Y jen centrovány) Behaviorální data subjekty Obrazová data voxely voxely (pxn) (pxv) (n x v) Rozklad matice R na UxSxVT pomocí SVD (singular value decomposition) voxely U (pxv) (P x P) (pxv) (v x v) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovédách IBA M) 62 PLSC-výstup voxely (P xv) u (P x v) .1.1 ..lll V každém sloupci váhy odpovídající nalezeným korelačním vzorům mezi obrazovými a behaviorálními daty (v x v) V každém řádku váhy pro korelaci s nalezeným behaviorálním vzorem v jednotlivých voxelech S - diagonální matice singulárních hodnot (s1 > s2 > ... > sp), odpovídajících kovarianci jednotlivých párů latentních proměnných. Z těchto hodnot lze odvozovat jakousi významnost dané latentní proměnné. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M 63 PLSC-optimalizace t- Cílem PLSC je nalezení takových párů latentních proměnných, které: 1. Mají vzájemnou maximální kovarianci 2. Pro index lx a /2 ,kdy lx * /2, jsou latentní vektory nekorelované 3. Koeficienty uuai/ jsou normalizovné Latentní proměnné .... Sxy — Xv/ and /fY/r — Yux První podmínka .... cov(VX/.✓Y/)oc ^xyAv — max Druhá podmínka .... /x/Av — 0 when / * / Třetí podmínka .... u^u^ = vT/v/ = 1 ZSVD plyne, že kovariance mezi dvěma latentními proměnnými je rovna příslušné singulární hodnotě s. J1 ^ — r ďX/* \,/ — °/ mu ^"•■f Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách iba m 64 Významnost latentní proměnné • umožní určit, jaké proměnné interpretovat • významnost testována pomocí permutací - permutace v matici Y - matice s behaviorálními daty • pro každou permutaci se opět vypočte PLSC a p-hodnota testu pak odpovídá pravděpodobnosti, že náhodně sestavená data měla vyšší singulární hodnotu u dané latentní proměnné než v originálním datovém souboru Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^ 65 Stabilita prostorového vzorce pro zjištění stability nalezených výsledků v závislosti na obrazech vstupujících do analýzy se dělají bootrapové výběry (řádově stovky až tisíce náhodných výběrů s vracením) - opět spočítáno PLSC stabilní latentní proměnné pak mají v daném voxelu přes všechny výběry menší směrodatnou odchylku poměr původní váhy z originálního PLSC k odhadnuté směrodatné odchylce se pak chová jako z-score -> možnost vybrat pouze ty voxely, které jsou stabilní (např. s tímto poměrem > 1.96) z boostrapových výběrů lze také odhadnout velikost intervalu spolehlivosti pro jednotlivé korelace behaviorálních dat s obrazovými -> pokud obsahují 0, pak danou behaviorální proměnnou nemá moc cenu interpretovat 0.6-0.4 0.2-1 °" o -0.2--0.4--0.6 - ^^^^^^^ .................................x...............................) í-1 ■ -■■ ■ _ .................. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách IBA M) 66 Ordinační analýzy - shrnutí • analýza hlavních komponent, faktorová analýza, korespondenční analýza, multidimensional scaling a metody varietního učení se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os • metody se liší v logice tvorby těchto os - Maximální variabilita (analýza hlavních komponent, korespondenční analýza) - Maximální interpretovatelnost os (faktorová analýza) - Převod asociační matice do Euklidovského prostoru (vícerozměrné škálování) • redundanční analýza, kanonická korelační analýza a metoda parciálních nejmenších čtverců se snaží nalézt vztah mezi dvěma sadami vícerozměrných dat Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^ 67 Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách" byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU" Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách ^ba~ ^ 68