Pokročilé metody analýzy dat v neurovědách IBA # RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2016 Blok 6 Ordinační analýzy II Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ll^Jj 2 Osnova i- 1. Analýza nezávislých komponent (ICA) 2. Vícerozměrné škálování (MDS) 3. Varietní učení (manifold learning) 4. Korespondenční analýza (CA) 5. Metoda parciálních nejmenších čtverců (PLS) 6. Redundanční analýza (RDA) 7. Kanonická korelační analýza (CCorA) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^JJ Schéma analýzy a klasifikace dat - opakování Předzpracování I _____________i Redukce I _____________i Klasifikace Ukázka - kognitivní data apod. A B C D E 1 id vek pohlaví výska vaha 2 1 38 Z 164 45 2 36 M 90 4 3 26 Z 17S 70 A B C E 1 id vek pohlaví výska vaha 2 ~i1 3S Z 164 45 2 36 M 167 90 4 3 26 Z 178 70 A B C 1 D E 1 1 id vek pohlaví výska vaha 2 1 38 Z 164 45 2 35 M 167 90 4 3 26 Z 178 70 ____I nebo Ukážka - obrazová data Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA m 4 Extrakce proměnných - opakování )- • jednou z možných přístupů redukce dat (vedle selekce) • transformace původních proměnných na menší počet jiných proměnných =^> tzn. hledání (optimálního) zobrazení Z, které transformuje původní p-rozměrný prostor (obraz) na prostor (obraz) m-rozměrný (m < p) • pro snadnější řešitelnost hledáme zobrazení Z v oboru lineárních zobrazení • metody extrakce proměnných: - analýza hlavních komponent (PCA) - faktorová analýza (FA) - analýza nezávislých komponent (ICA) - korespondenční analýza (CA) - vícerozměrné škálování (MDS) - redundanční analýza (RDA) - kanonická korelační analýza (CCorA) - manifold learning metody (LLE, Isomap atd.) - metoda parciálních nejmenších čtverců (PLS) • metody extrakce proměnných často nazývány jako metody ordinační analýzy MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 5 Analýza nezávislých komponent Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza nezávislých komponent (ICA) Princip: Hledání statisticky nezávislých komponent v původních datech, Comp 008 Feature Auditory Oddball O Q @®(§>(§) mmt- K Výhody: + analýza na celém mozku, vícerozměrná metoda + dokáže vytvořit lépe interpretovatelné komponenty než PCA Nevýhody: - velmi časově náročná, předstupněm je redukce pomocí PCA - je třeba expertní znalost pro výběr komponent Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA Srovnání s analýzou hlavních komponent (PCA) Princip: Vytvoření nových proměnných (komponent) z původních proměnných tak, aby zůstalo zachováno co nejvíce variability. y2 PCA y2 Výhody: + analýza na celém mozku + vícerozměrná metoda Nevýhody: - nevyužívá informaci o příslušnosti subjektů do skupin - potřebné určit, kolik hlavních komponent se použije pro transformaci Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 8 Analýza nezávislých komponent • anglicky Independent Component Analysis (ICA) x^t) = a^s^t) + a12.s2(t) x2(t) = a21.s1(t) + a22.s2(t) • úloha spočívá v nalezení originálních neznámých signálů z jednotlivých zdrojů s^t) a s2(t) máme-li k dispozici pouze zaznamenané signály x^t) a x2(t) • ICA umožňuje určit koeficienty a^ za předpokladu, že známé signály jsou dány lineárních kombinací zdrojových, a za předpokladu statistické nezávislosti zdrojů v každém čase t MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! ^ Analýza nezávislých komponent - model dat i- • mějme x =T(x1,x2,..v xm), což je m-rozměrný náhodný vektor x. = a-,orig s,orig+ a-.orig s.orig+ +a- orig s orig i = 12 m nebo maticově x = Aorig.sorig sorig je vektor originálních skrytých nezávislých komponent a jsou nezávislé komponenty (předpoklad vzájemně statisticky nezávislosti) Aorig je transformační matice • skryté nezávislé komponenty je možno vyjádřit pomocí vztahu: s = W.x • cíl: nalézt lineární transformaci (koeficienty transformační matice W) tak, aby vypočítané nezávislé komponenty s, byly vzájemně statisticky nezávislé [W = A-1] Janoušová, Dušek: Pokročilé toň^9WaWÝte*toi&fa8téAW: *^ W 10 Analýza nezávislých komponent - omezení pouze jedna originální nezávislá komponenta může mít normální rozložení pravděpodobnosti (pokud má více zdrojů normální rozložení, není ICA schopna tyto zdroje ze vstupních dat extrahovat) pro dané m-rozměrné obrazové vektory je ICA schopna najít pouze m nezávislých komponent nelze obecně určit polaritu nezávislých komponent nelze určit pořadí nezávislých komponent Janoušová, Dušek: Pokročiléto©&^o\žáiaty^ýfótay W§aftte&$á snaha o vhodnou aproximaci NNE, aby byly zachovány její výhody a současně byl výpočet méně náročný s as Odhad nezávislých komponent-aproximace NNE • použití momentů vyšších řádů J( } Ä —^— E-fs3}2 + — kurt(s)2 v ' 12 X 48 kde s je náhodná veličina s nulovou střední hodnotou a jednotkovým rozptylem • nevýhoda: - opět menší robustnost vůči odlehlým hodnotám • použití tzv. p-nekvadratických funkcí J(s)«Xk,[£{Gi(s)}-í{Gi(sgauJ}]2 i=1 kde kj>0 je konstanta, G, jsou šikovně navržené nelineární funkce a sgauss je normální náhodná proměnná, která spolu s s má nulovou střední hodnotu a jednotkový rozptyl. Je-li použita pouze jedna funkce G, pak je J(s) * [ nebo G2(s)*-exp(-s2/2) a * — m,j Janoušová, Dušek: Pokročilé^©^9Vmc^f^ýfet^/Wiartoíáidht (yj yj Analýza nezávislých komponent - příklad použití fpi, . FP2 Puvodni EEG«2nann f3 vV^V^^^V^^ A^^.)^^^^^^'-v-»^^^^^v f4 ^^^^-^Wv^,^^^^ cl ,. AW^n^^^v^--A/WV--^- -w-v^ ^^^Js - hli 1,1i -J. J A 1.1 IK ÍL il r "S'-V 1/V"- v 1 sec 200 00 |iV Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách MU ,..„ Analýza nezávislých komponent - příklad použití Nezávisle komponenty (ICsi IC 7 IC B IC 9 IC16 ic2 t^^-ŕ^pw^ ic s ■■■*< ^-V ~~-i\-v f_1 -.r..,,"Jl*ft' IC1 1 IC12 /^^V-'V^'^ iná . 1>j. /■'.j.-i.jv IC17 IC1B -...^tfV^^ 1 sec Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách Analýza nezávislých komponent - příklad použití Nezávisle komponenty (IC4 a IC11 byly odstraněny) IC 2 iV^'/. IC 3 ■-----~- '-----' ->.. -----* ... IC4 - ic11 - ici 2 yVA'-;r.v^^-vV^vYWV^ ich !V<«if^,;^^A'^ ic19 ^v^^*v|^^^^ 1 S6C _ "ľ Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^lj 20 Analýza nezávislých komponent - příklad použití RekunsiruôväľVŕ EEG2SZl£in FP1 FP2 F4 c4 •■^j-'—y P4 o 2 ra T3 t4 ■-w-v.^-.-.....,,(v. t5 .W "v. T6 .■.../'■''v**">'"'1''*~^-■ ■1"^"'V--.' F2 ..^'>.--,--v—-.....■«■- cz w-v-'- —^ r. - -. i \ -,.-■„ . v-'---- ■ •■■v.v-.,-, „..■v,..„.,í_.-aj.-vl.,í..',-v v ■ pi .>í *ŕtvv*rfV*..J».Av.-v ju ň, ^ I ssc 200.00 |jV Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 21 Analýza nezávislých komponent - příklad použití Pin/odni E EG záznam fp1 /^^^/^~'^Vw„,s ^ ^"W^-'""'---ŕJ^/*^"V*"í1'---- F3 ^íW^*^'ÍV'^^+*A^^ |MmlS9ilÉW' pi Rekonslruovariy EEG2aľnam h pi T 5 ,*- 02 ^••i*^,''V'v^\^^í^/V/ív^^ "■ . V r] f4 u^rS"* c 3 -■ - j""1"J' c4 -..y"'--' p 3 p4 »-,*■--» 01 02 .v/f f7 íW~- < : -v F5 T] T4 T5 TG YL C. 7 n 1 sei: 1 56C 200.00 |iV Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách IBA W 22 Analýza nezávislých komponent - příklad 2 i- • Zadání: určete nezávislé komponenty ve fMRI datech zdravých subjektů, u nichž byl proveden vizuomotorický test. Řešení (s pomocí GIFT toolboxu v software MATLAB) http://mialab.mrn.org/software/gift/ Figuře No. 2: Composite Viewer: Components: 2 14 File Edit View Insert lools Window Help GIFT-Help 100 120 140 160 1B0 200 220 0 © © i5 50 45 40 ---35 —^ 30^--^—^ mmmm v^ä-vA^Vatä Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách /BA W 23 Analýza nezávislých komponent - příklad 3 Zadání: nalezněte nezávislé komponenty, které dokáží odlišit tři skupiny subjektů #N Age* [years] Gender F/M Education* [years] HC 57 68 (47-81) 40/17 16 (12-21) ADmci 27 69 (52-86) 17/10 13 (10-22) AD 12 75 (55-88) 11/1 12 (8-25) CO Datová matice voxel y Mixing matice komponenty V1 V2 ... K1 K2 ... S1 _ S1 S2 subjekty S2 i c (D C O Q. E o K1 K2 Source matice voxely V1 V2 4 pro vizualizaci pro nalezení odlišujících komponent Janoušová, Dušek: Pokročilé^ie©^9\a^a^ý^^a/Wiaŕä^i^(dht IBA W 24 Analýza nezávislých komponent - příklad 3 komponenta č. 1: 0,050 0,045 0,040 g 0,035 0,030 0,020 0 015 0 010 Box Plot or inverted filtered C01 grouped by Group Spreadsfieet46 13v*96c HC p = 0.0052 ADm ci Group AD □ Median □ 25%-75% X Min-M ax > Raw Data komponenta č.l ukazuje místa, kde je úbytek šedé hmoty v ADmci a v AD, nicméně v AD větší Janoušová, Dušek: Pokročilétoň^VWaWÝt<toiVfiteStéAW: Ig^ W 25 Analýza nezávislých komponent - příklad 3 komponenta č. 2: 0,040 0,035 0,030 0,025 g 0,020 "ô 0,050 0,045 0,040 0,035 0,030 HC Boxplot by Group Variable: filtered C06 p = 0.0126 ADmci Group AD □ Median □ 25%-75% J] Min-Max - Raw Data komponenta č.6 ukazuje místa, kde je úbytek šedé hmoty pouze u AD Janoušová, Dušek: PokročilétoňtävtääWÝt<toiVfiteStéAW: Ig^ M 27 Vícerozměrné škálování Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 28 Vícerozměrné škálování • anglicky Multidimensional scaling (MDS) • přesnější název: nemetrické vícerozměrné škálování • cíl: dosáhnout řešení, které při nejmenším počtu vytvořených os zachovává pořadí vzdáleností objektů v původní asociační matici • jde o iterační algoritmus řešící převod libovolné asociační matice do Euklidovského prostoru (různé SW mohou dosahovat mírně odlišné výsledky) • vstupem analýzy je libovolná asociační matice (včetně nemetrických koeficientů) • výstupem je zadaný počet „faktorových os" • pokud je vstupní asociační matice maticí Euklidovských vzdáleností, je MDS totožná s PCA MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 29 Vícerozměrné škálování- příklad Data vzdáleností evropských měst - > rekonstrukce mapy STATISTICA - [Data: mesta_vzdalenosti [21v by 24c)] File Edit View Insert Format Statistics Data Mining Graphs Tools Data Window Help m m #4 Add to Workbook - Add to Report ' Add to MS Word ' Arial T 10 - BIU % III! + .0 .00 .00 +.0 W É1!1 Ô z\ »=? 5i=l Vats ' C:\Users\Jarkovsky\C )esktop\FSTA\mesta_vzdalenosti.xlsx : Sheetl ■ Barcelon 2 3 4 5 6 7 8 9 10 Bělehrad Berlín Brusel Bukurešť I Budapešť Kodaň Dublin Hamburg Istanbul Barcelona 0 1528 1497 1062 1968 1498 1757 1469 1471 2230 Belehrad 1528 0 999 1372 447 316 1327 2145 1229 809 Berlín 1497 999 0 651 1293 689 354 1315 254 1735 Brusel 1062 1372 651 0 1769 1131 766 773 489 2178 Bukurešť 1968 447 1293 1769 0 639 1571 2534 1544 445 Budapešť 1498 316 689 1131 639 0 1011 1894 927 1064 Kodari 1757 1327 354 766 1571 1011 0 1238 287 2017 Dublin 1469 2145 1315 773 2534 1894 1238 0 1073 2950 Hamburg 1471 1229 254 489 1544 927 287 1073 0 1983 Istanbul 2230 809 1735 2178 445 1064 2017 2950 1983 0 Kiev 2391 976 1204 1836 744 894 1326 2513 1440 1052 Londýn 1137 1688 929 318 2088 1450 955 462 720 2496 Madrid 504 2026 1867 1314 2469 1975 2071 1449 1785 2734 Miláno 725 885 840 696 1331 788 1157 1413 900 1669 Moskva 3006 1710 1607 2253 1497 1565 1558 2792 1779 1753 Mnichov 1054 773 501 601 1186 563 838 1374 610 1582 Paříž 831 1445 876 261 1869 1247 1025 776 744 2253 Praha 1353 738 280 721 1076 443 633 1465 492 1507 Rím 856 721 1181 1171 1137 811 1529 1882 1307 1373 Saint Petersburg 2813 1797 1319 1903 1740 1556 1143 2314 1414 2099 Sofia 1745 329 1318 1697 296 629 1635 2471 1554 502 Stockholm 2276 1620 810 1280 1742 1316 521 1626 809 2171 Vídeň 1347 489 523 914 855 216 868 1680 742 1273 Varšava 1862 826 516 1159 946 545 667 1823 750 1386 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 30 Vícerozměrné škálování- příklad kvalita dodržení pořadí vzdáleností v datech při daném počtu os je kontrolována Shepardovým diagramem 2 osy 3.5 3.0 B 2.5 O | 2.0 S 15 o ro £ 1.0 0.5 0.0 Shepard Diagram O Distances and —*— D-Hats vs. Data 500 1000 1500 2000 Data © . . . . . . . . . . . . . . . . . . . . 2500 3000 3500 1 osa Shepard Diagram O Distances and —*— D-Hats vs. Data 500 1000 1500 2000 Data 2500 3000 3500 -> jedna osa není dostačující (data příliš daleko od diagonály), zatímco dvě osy jsou v tomto případě dostačující MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách fljyv m 3i Vzdálenosti v původních datech a vytvořených faktorových osách vzdálenost (km) 1 1 r MDS 2 osy i ii ii_ii_ o° J o Ol o° ° o o ftQ. MDS 1 osa I Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ll^Jj 32 Reprezentace výstupu 1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 -1.2 Stockholm Saint Dublin O O o ■ Kcjídaň O l\/l oskva O L ondýn O Brttseí Hamburg O r-> lvi o Paříž Be ( rlín Varí ;ava O Pn < X aha ) Mnichov O \ /ídeň Q rxlcv o Madrid 0 Mik c áno ) Budapešť O Barcelona o Bělehrac Řím o ° Bukurešť O o; JI la 0 Istan bul -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 33 Reprezentace výstupu -0.5 0.0 0.5 1.0 1.5 2.0 MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 34 Varietní učení (manifold learning) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 35 Úvod - redukce dimenzionality • klasické metody redukce dimenzionality: - PCA (principal component analysis) - snaha o nalezení „podstruktury" (embedding) v datech tak, aby byl zachován rozptyl - MDS (multidimensional scaling) - snaha o nalezení „podstruktury" v datech tak, aby byly zachovány vzdálenosti mezi body; ekvivalentní s PCA při použití Euklidovské vzdálenosti Swiss roll • tyto klasické metody redukce dimenzionality nedokáží zachytit složité nelineární struktury -> metody varietního učení Tenenbaum et al. 2000, Science MU Janoušová, Dušek: Pokročilé4^©©^9\a?(a^f^ý^9/Wiaŕtoáádht (^J Metody varietního učení metody pro nelineární redukci a reprezentaci dat manifold = „nadplocha" - čáry a kruhy jsou ID nadplochy, koule je příklad 2D nadplocha základní metody varietního učení: 1. ISOMAP (Tenenbaum et al. 2000) 2. Metoda lokálně lineárního vnoření = LLE (Roweis & Saul 2000) další metody varietního učení: Laplacian Eigenmaps, Sammon's Mapping, Kohonen Maps, Autoencoders, Gaussian process latent variable models, Curvilinear component analysis, Curvilinear Distance Analysis, Kernel Principal Component Analysis, Diffusion Maps, Hessian LLE, Modified LLE, Local Tangent Space Alignment, Local Multidimensional Scaling, Maximum Variance Unfolding, Data-Driven High Dimensional Scaling, Manifold Sculpting, RankVisu některé z manifold learning metod implementovány v mani.m demu (http://www.math.ucla.edu/~wittman/mani/index.htm MU Janoušová, Dušek: Pokročilé toi&Ci<^9\a^ý^^a/W^ *|L ISOMAP metoda • založena na MDS • ISOMAP = isometric feature mapping • snaha o zachování vnitřní geometrie dat, která je zachycena pomocí geodézních vzdáleností (geodesis distance) založených na hledání nejkratších cest v grafu s hranami spojujícími sousední datové body ABC Tenenbaum et al. 2000 Science, A Global Geometric Framework for Nonlinear Dimensionality Reduction Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ISOMAP metoda - algoritmus se 3 kroky i- 1. Vytvoření grafu spojujícího sousední objekty: • nejprve nutno vypočítat vzdálenosti D(xj,x;-) mezi všemi objekty • poté dojde ke spojení objektů tak, že se y-tý objekt spojí s těmi objekty, jejichž vzdálenost je menší než e (v případě f-ISOMAP), nebo s jeho k nejbližšími sousedy (v případě /c-ISOMAP) 2. Výpočet geodézních vzdáleností DG(xifXj} mezi všemi objekty nalezením nej kratší cesty v grafu mezi danými objekty - iniciální nastavení DG(xifXj} závisí na tom, jestli jsou objekty spojené hranou či nikoliv: • pokud objekty spojeny hranou: DG(xifXj} = D(xí,x;) • pokud ne: Dg(xí,x;) = oo poté je pro každé k = 1,2,...,N nahrazena vzdálenost Dg(xí,x;) hodnotou min(DG(x£,x;-) ,DG(xifxk) + DG(xk,Xj) ). 3. Aplikace nemetrického vícerozměrného škálování (MDS) na matici geodézních vzdáleností - tzn. transformace dat do Euklidovského prostoru tak, aby byly co nejlépe zachovány geodézní vzdálenosti. Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction MU Janoušová, Dušek: Pokročilé toi&Ci<^9\a^ý^ý^^ ^JJj- 1^1 ISOMAP metoda - ukázka 1 Výsledek /c-ISOMAP algoritmu u 698 obrazů tváří a) A Q) >i_ 'CO > Q) O 'N O Q. 'E Q) > □ in r-i—«. U Li: Li Li. L fa; Li ■ ■ • B f ST r~i~» směr osvětlení pravolevé natočení tváře Interpolace podél os x a y v podprostoru obrazů tváří Li[Éíá au tltifalELl Výsledkem je redukce původních 4096 proměnných (obrazy měly rozměry 64 x 64 pixelů) na pouze tři komponenty Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction MU Janoušová, Dušek: Pokročilé toi&Ci<^9\a^ý^ý^^ ^JJj- 1^1 ISOMAP metoda - ukázka 2 Výsledek ISOMAP algoritmu u obrazů ručně psaných číslic B Bottorri loop articulation í o -i y r 03 CL ■■■■ 2. •"' UŠE. "i 1 * t 2. 5 5 i 2 * 2 Interpolace podél osx a y v podprostoru obrazů číslic Tenenbaum et al. 2000 Science, A Global Geometrie Framework for Nonlinear Dimensionality Reduction MU Janoušová, Dušek: Pokročilé toi&Ci<^9\a^ý^ý^^ ^JJj- 1^1 Metoda lokálně lineárního vnoření (LLE) )- • Locally Linear Embedding (LLE) • založena na zachování mapování sousedů (neighborhood-preserving mapping) • LLE rekonstruuje globální nelineární struktury z lokálních lineárních fitů Černě vyznačeno okolí (sousedi) jednoho bodu. Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ Wl LLE - algoritmus (T) Sůlůct neighbor* o ® onstruct with linear wdghts O O0 Map to embedded coordinates 1. Výběr k nejbližších sousedů. 2. Rekonstrukce objektů z jejich sousedů - cílem je nalezení vah Wy tak, aby rekonstrukční chyby byly co nejmenší, tzn. snažíme se minimalizovat výraz s(W) = Hi|xi — Y,j Wíj Xj\2, přičemž součet vah Wjj musí být roven 1; váhy jsou invariantní vůči rotaci, přeškálování a translaci objektů a jejich sousedů. 3. Mapování do „nadplochy" s nižší dimenzionalitou (lineární mapování - skládající se z translací, rotací a přeškálování) pomocí výpočtu vlastních vektorů Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding MU Janoušová, Dušek: Pokročilé^^^^^^<^^mÍÓ^^^)X *|L LLE-ukázka 1 Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách JM|! LLE - ukázka 2 Výsledek LLE algoritmu u hodnocení počtu a výskytu slov v encyklopedii master image television .film image s academy paintings 'gallery tube. furniture j • -aitisrs decorative, fine 'painter scenes portrait •artist] .radio colors * • light S°Und» styleľaii™NTlNG LANDSCAPE* #f™^RRS garden •ilorence ■ elaliorateJardiitecl objeets C^SS10& . . -renaissance subject • » design • • classical reflet led coniemporarv london pari s medieval UgĽS ITALIAN middle ITALY * • Roweis & Saul 2000 Science, Nonlinear Dimensionality Reduction by Locally Linear Embedding Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA Výhody a nevýhody ISOMAP a LLE výhody a nevýhody ISOMAP: + zachovává globální strukturu dat + málo parametrů - citlivost k šumu výpočetně náročné výhody a nevýhody Locally Linear Embedding (LLE): + rychlý + jeden parametr + jednoduché operace lineární algebry - může zkreslit globální strukturu dat Janoušová, Dušek: Pokročilé\mo^^^^^^^\^mfÓ^á<áW- jg^ Další práce * Laplacian Eigenmaps for Dimensionality Reduction and Data Representation (Belkin & Niyogi 2003): - snaha o zachování mapování sousedů jako u Locally Linear Embedding - podobný algoritmus jako LLE, ale používá se zde výpočet vlastních vektorů a vlastních čísel s využitím Laplaciánu grafu - souvislost s klastrováním - lokální přístup k redukci dimenzionality způsobuje přirozené klastrování dat (klastrování tedy nastává u Laplacian Eigenmaps a LLE, nenastává u ISOMAP, protože to je globální metoda) • Manifold Learning for Biomarker Discovery in MR Imaging (Wolz et al. 2010) - použití Laplacian eigenmaps u obrazů pacientů s Alzheimerovou chorobou (data ADNI) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Korespondenční analýza Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 48 Korespondenční analýza • anglicky Correspondence Analysis (CA) • cíl: nalezení vztahu mezi řádky a sloupci kontingenční tabulky • vstupní data: - tabulka obsahující souhrny proměnných (počty, průměry) za skupiny subjektů/objektů • výstupy analýzy: - vztahy všech původních faktorů a/nebo skupin subjektů v jednoduchém xy grafu • kritické problémy analýzy - skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou - obtížná interpretace velkého množství malých skupin subjektů • Výpočet probíhá prostřednictvím rozkladu na singulární hodnoty (singular value decomposition) na matici chí-kvadrát vzdáleností (tedy na matici příspěvků buněk tabulky k celkovému chí-kvadrátu obdobně jako v klasickém testu dobré shody na kontingenční tabulce) MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 49 Analýza kontingenčních tabulek jako princip výpočtu vícerozměrných analýz • Počet pacientů s nežádoucími účinky na typu léčby lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (typ léčby - lék A, lék B) a sloupci (nežádoucí účinky - ano, ne) je velikost chí-kvadrátu Počítáno pro každou buňku tabulky 9 © 10 0 ^^^^ ^^^^ B 0 10 B 5 5 Pozorovaná tabulka Očekávaná tabulka Hodnota chí-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu nežádoucích účinků a typu léčby) od situace, kdy mezi řádky a sloupci (nežádoucími účinky a typem léčby) není žádný vztah MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! SO = | I pozorovaná očekávaná I četnost ~ četnost očekávaná četnost ^2 Princip korespondenční analýzy Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 51 Výstupy korespondenční analýzy Tabulka 1: Zastoupeni třech druhů ptáků na třech lokalitách. Druh 1 Sturnus vulgaris Druh 1 FringHta codebs Druh 3 Paws major Celkem Lokalita A Lokalita B Lokalita C 3 5 : Celktr 10 Vzájemná pozice faktorů a skupin objektů/subjektů: vzájemnou pozici lze interpretovat i 12 ■0) 0,1 Variabilita vyčerpaná danou faktorovou osou 6 12 7 2* C ♦ Parus major Fringilla coelebs Sturnus vulgaris 0,1 0,2 1. ordinační osa X, = 0,043 (79,75% celkov é inerce) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách 0,3 0,4 R* m 52 IBA Kanonická korelační analýza Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách Kanonická korelační analýza • anglicky Canonical Correlation Analysis (CCorA) • cíl: nalezení maximální lineární korelace mezi dvěma sadami proměnných (tzn. zjištění, zda se jedna skupina proměnných chová stejně jako druhá skupina proměnných pro ty samé objekty, a pokud ano, co je podstatou této shody) • vstupem do CCorA dvě matice: - se vzájemně závislými proměnnými - nebo jedna matice se závisle proměnnými a jedna s nezávisle proměnnými (v tom případě velmi podobné jako RDA) • princip: CCorA hledá lineární kombinaci proměnných z první sady a lineární kombinaci proměnných z druhé sady, které mají maximální korelaci mezi sebou • CCorA je zobecněním vícerozměrné lineární regrese, která hledá závislost pouze jedné závisle proměnné na sadě nezávislých proměnných • příklad použití: hledání vztahu skupiny rizikových faktorů a skupiny symptomů nemoci MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 54 Kanonická korelační analýza - předpoklady data musí být kvantitativní data nesmí obsahovat odlehlé hodnoty (proměnné ale nemusí mít nutně normální rozdělení) počet proměnných první sady plus počet proměnných druhé sady musí být menší než počet objektů proměnné musí mít mezi sebou lineární vztah (ne nelineární) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^j^- J^).; 55 Redundanční analýza Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 56 Redundanční analýza anglicky Redundancy Analysis (RDA) cíl: zjištění závislosti jedné skupiny proměnných na druhé skupině proměnných vhodná v případech, kdy mají dvě sady proměnných lineární vztah dává podobné výsledky jako kanonická korelační analýza princip: RDA je v podstatě vícerozměrnou regresní analýzou, která je následovaná analýzou hlavních komponent předpoklady: stejné jako u PCA Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 57 Redundanční analýza - označení a postup i- Označení: X - matice nezávisle proměnných; Y - matice závisle proměnných Postup: 1. regrese každé závisle proměnné Y, na sadě nezávislých proměnných X pomocí vícerozměrné regrese a získání regresních koeficientů 2. PCA na sadě regresních koeficientů z vícerozměrné regrese a získání matice kanonických vlastních vektorů 3. použití kanonických vlastních vektorů k získání skóre objektů buď ve faktorovém prostoru X (skóre označovány jako lineární kombinace), nebo v prostoru závislých proměnných Y (skóre označovány jako vážené průměry) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 58 Ordinační analýzy - shrnutí analýza hlavních komponent, faktorová analýza, korespondenční analýza, multidimensional scaling a metody varietního učení se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os metody se liší v logice tvorby těchto os - Maximální variabilita (analýza hlavních komponent, korespondenční analýza) - Maximální interpretovatelnost os (faktorová analýza) - Převod asociační matice do Euklidovského prostoru (vícerozměrné škálování) redundanční analýza a kanonická korelační analýza se snaží nalézt vztah mezi dvěma sadami vícerozměrných dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 59 Metoda parciálních nejmenších čtverců Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Metoda parciálních nejmenších čtverců • anglicky Partial Least Squares (PLS) • cíl: zjištění vztahu (kovariance) mezi dvěma sadami proměnných (např. mezi funkčními obrazovými daty a behaviorálními daty) • lze rovněž srovnávat skupiny mezi sebou - lze srovnat i více skupin (při porovnávání více skupin nedetekuje pouze rozdílné patterny mezi skupinami, ale i podobné či stejné) • vhodné i pouze jako doplňková analýza, dokonce se doporučuje, aby byla v kombinaci s nějakým dalším typem analýzy • reference pro využití PLS v ne urozob rázová ní: Mcintosh, A.R., Bookstein, R, Haxby, J., Grady, C, 1996. Spatial pattern analysis of functional brain images using partial least squares. Neuroimage 3,143-157 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 61 PLS - metody PLS PLSC: PLS Correlation Behavior PLSC Task PLSC Seed PLSC Multi-Table PLSC PLS-PN1: PLS Path Modeling Analyzes information ■> common to brain & behavior/design Com rast Task PLSC y Analyzes brain with contrasts Mean-centered Task PLSC Nan-rotated Task PLSC k>* Analyzes group differences Analyzes brain with contrasts y Analyzes brain connectivity patterns Analyzes relationships -> between brain & several data tables J PLSRiPLS Regression from brain Models complex relationship between multiple variables or data tables Fig. I.The PLS family. Krishnan, A., Williams, L.J., Mcintosh, A.R., Abdi, H., 2011. Partial least squares (PLS) methods for neuroimaging: a tutorial and review. Neuroimage 56 (2), 455-475. ™ Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ISA ^ 62 PLSC- princip i. 2. Výpočet matice R - ukazuje vztah mezi maticemi X a Y (korelace, pokud X a Y předem standardizovány; kovariance, pokud X a Y jen centrovány) Behaviorální data subjekty Obrazová data voxely voxely (px n) (pxv) (n x v) Rozklad matice R na UxSxVT pomocí SVD (singular value decomposition) voxely U (pxv) (P x P) (pxv) (v x v) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách IBA W 63 PLSC-výstup voxely (P x v) u (P xv) .1.1 ..lil V každém sloupci váhy odpovídající nalezeným korelačním vzorům mezi obrazovými a behaviorálními daty V každém řádku váhy pro korelaci s nalezeným behaviorálním vzorem v jednotlivých voxelech S - diagonální matice singulárních hodnot (s1 > s2 > ... > sp), odpovídajících kovarianci jednotlivých párů latentních proměnných. Z těchto hodnot lze odvozovat jakousi významnost dané latentní proměnné. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 64 PLSC-optimalizace i- Cílem PLSC je nalezení takových párů latentních proměnných, které: 1. Mají vzájemnou maximální kovarianci 2. Pro index l1 a /2 ,kdy lx * /2, jsou latentní vektory nekorelované 3. Koeficienty uuai/ jsou normalizovné Latentní proměnné .... /x/ — Xv/ and ďY/ — YU/ První podmínka .... cov(VX/í^Yy)oc *fJx/fY/ = max Druhá podmínka .... /x//Y/ — 0 when / * / Třetí podmínka .... u^u^ = vT/v/ = 1 Z SVD plyne, že kovariance mezi dvěma latentními proměnnými je rovna příslušné singulární hodnotě s. J1 ^ — r eX,/e Y/ — °/ MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 65 Významnost latentní proměnné • umožní určit, jaké proměnné interpretovat • významnost testována pomocí permutací - permutace v matici Y - matice s behaviorálními daty • pro každou permutaci se opět vypočte PLSC a p-hodnota testu pak odpovídá pravděpodobnosti, že náhodně sestavená data měla vyšší singulární hodnotu u dané latentní proměnné než v originálním datovém souboru Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 66 Stabilita prostorového vzorce pro zjištění stability nalezených výsledků v závislosti na obrazech vstupujících do analýzy se dělají bootrapové výběry (řádově stovky až tisíce náhodných výběrů s vracením) - opět spočítáno PLSC stabilní latentní proměnné pak mají v daném voxelu přes všechny výběry menší směrodatnou odchylku poměr původní váhy z originálního PLSC k odhadnuté směrodatné odchylce se pak chová jako z-score -> možnost vybrat pouze ty voxely, které jsou stabilní (např. s tímto poměrem > 1.96) z boostrapových výběrů lze také odhadnout velikost intervalu spolehlivosti pro jednotlivé korelace behaviorálních dat s obrazovými -> pokud obsahují 0, pak danou behaviorální proměnnou nemá moc cenu interpretovat i Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 67 Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách" byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU" Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 68