© Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 5 Ordinační analýzy I 2 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1. Principy redukce dimenzionality dat 2. Selekce a extrakce proměnných 3. Analýza hlavních komponent (PCA) 4. Faktorová analýza (FA) 3 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Principy redukce dimenzionality dat 4 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Schéma analýzy a klasifikace dat 5 Data Předzpracování Redukce Klasifikace nebo ? ? Data Předzpracování Redukce Ukázka - kognitivní data apod. Ukázka - obrazová data Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Proč používat redukci dat? 6 x1 x2 … I1 I2 … voxely subjekty 270 x 1 000 000 Klasifikace 𝑿 I1 pac. I2 kon. … subjekty Obrazová data Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Proč používat redukci dat? 7 Redukce dat x1 x2 … I1 I2 … voxely subjekty 270 x 1 000 000 x1 x5 … I1 I2 … voxely subjekty 270 x 1 000 Klasifikace 𝑿 I1 pac. I2 kon. … subjekty Obrazová data Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Proč používat redukci dat? • zjednodušení další práce s daty • možnost použití metod analýzy dat, které by na původní data nebylo možno použít • umožnění vizualizace vícerozměrných dat – může být nápomocné k nalezení vztahů v datech či k jejich interpretaci • redukce dat může být i cílem analýzy (např. identifikace oblastí mozku, kde se nejvíce liší od sebe liší skupiny subjektů) 8 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Volba a výběr proměnných – úvod • kolik a jaké proměnné? – málo proměnných – možná nízká úspěšnost klasifikace či jiných následných analýz – moc proměnných – možná nepřiměřená pracnost, vysoké náklady 9  KOMPROMIS (určit ty proměnné, jejichž hodnoty nesou nejvíce informace z hlediska řešené úlohy, tj. např. ty proměnné, kterou jsou nejefektivnější pro vytvoření co nejoddělenějších klasifikačních tříd) • počáteční volba proměnných je z velké části empirická, vychází ze zkušeností získaných při empirické klasifikaci člověkem a závisí kromě rozboru podstaty problému i na technických (ekonomických) možnostech a schopnostech hodnoty proměnných určit Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Zásady pro volbu proměnných I • výběr proměnných s minimálním rozptylem uvnitř tříd • výběr proměnných s maximální vzdáleností mezi třídami 10 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Zásady pro volbu proměnných II • výběr vzájemně nekorelovaných proměnných – pokud jsou hodnoty jedné proměnné závislé na hodnotách druhé proměnné, pak použití obou těchto proměnných nepřináší žádnou další informaci – stačí jedna z nich, jedno která • výběr proměnných invariantních vůči deformacím – volba elementů formálního popisu závisí na vlastnostech původních i předzpracovaných dat a může ovlivňovat způsob předzpracování 11 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Selekce a extrakce proměnných 12 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Selekce a extrakce proměnných • popis objektu původně reprezentovaný p rozměrným vektorem se snažíme vyjádřit vektorem m rozměrným tak, aby množství diskriminační informace obsažené v původním vektoru bylo v co největší míře zachováno • dva principiálně různé způsoby: 13 1. selekce – výběr těch proměnných, které přispívají k separabilitě klasifikačních tříd nejvíce 2. extrakce – transformace původních proměnných na menší počet jiných proměnných (které zpravidla nelze přímo měřit a často nemají zcela jasnou interpretaci) x1 x2 x3 x4 x5 x6 x7 x8 … I1 pac. I2 pac. I3 kont. … proměnné subjekty x1 x2 x3 x4 x5 x6 x7 x8 … I1 pac. I2 pac. I3 kont. … proměnné subjekty y1 y2 y3 y4 I1 I2 I3 … Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Selekce proměnných • cílem je výběr proměnných, které jsou nejužitečnější pro další analýzu (např. při klasifikaci výběr takových proměnných, které nejlépe od sebe dokáží oddělit skupiny subjektů/objektů) 14 • metod selekce je velké množství, nejpoužívanější metody jsou: – výběr proměnných na základě statistických testů – výběr oblastí mozku (ROI) podle atlasu – algoritmy sekvenční selekce (dopředné či zpětné nebo algoritmus plus p mínus q) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Výběr proměnných na základě statistických testů 15 Nevýhody: - jednorozměrná metoda (výběr proměnných bez ohledu na ostatní proměnné) - potřeba použít metody korekce pro mnohonásobné testování (např. FDR) Výhody: + rychlé + u obrazů mozku výhodou, že je analýza provedena na celém mozku x1 x2 x3 x4 x5 x6 x7 x8 … I1 pac. I2 pac. I3 kont. I4 pac. I5 kont. … proměnné subjekty p-hodnoty: Princip: Výběr statisticky významných proměnných pomocí dvouvýběrového t-testu či Mannova-Whitneyova testu. 0,34 0,02 0,09 0,01 0,25 0,63 0,03 0,12 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Výběr oblastí mozku (ROI) podle atlasu 16 Nevýhody: - ne vždy dopředu víme, která z oblastí je vhodná pro odlišení skupin osob - některá onemocnění postihují celý mozek (např. schizofrenie) Výhody: + anatomicky/funkčně relevantní – snadnější interpretace + zpravidla rychlé Princip: Výběr oblastí mozku s využitím atlasu mozku podle expertní znalosti daného onemocnění (tzn. výběr oblasti postižené danou nemocí). Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Algoritmy sekvenční selekce • algoritmus sekvenční dopředné selekce: – algoritmus začíná s prázdnou množinou, do které se vloží proměnná s nejlepší hodnotou selekčního kritéria – v každém následujícím kroku se přidá ta proměnná, která s dříve vybranými veličinami dosáhla nejlepší hodnoty kritéria 17 • algoritmus sekvenční zpětné selekce: – algoritmus začíná s množinou všech proměnných – v každém následujícím kroku se eliminuje ta proměnná, která způsobuje nejmenší pokles kriteriální funkce - dopředná selekce – nelze vyloučit ty veličiny, které se staly nadbytečné po přiřazení dalších veličin - zpětná selekce – neexistuje možnost opravy při neoptimálním vyloučení kterékoliv proměnné + dopředný algoritmus je výpočetně jednodušší, protože pracuje maximálně v n-rozměrném prostoru + zpětný algoritmus umožňuje průběžně sledovat množství ztracené informace Výhody : Nevýhody : • algoritmus plus p mínus q: – po přidání p veličin se q veličin odstraní; – proces probíhá, dokud se nedosáhne požadovaného počtu příznaků Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Extrakce proměnných • jednou z možných přístupů redukce dat 18 • transformace původních proměnných na menší počet jiných proměnných  tzn. hledání (optimálního) zobrazení Z, které transformuje původní prozměrný prostor (obraz) na prostor (obraz) m-rozměrný (p  m) • pro snadnější řešitelnost hledáme zobrazení Z v oboru lineárních zobrazení • metody extrakce proměnných: – analýza hlavních komponent (PCA) – faktorová analýza (FA) – analýza nezávislých komponent (ICA) – korespondenční analýza (CA) – vícerozměrné škálování (MDS) – redundanční analýza (RDA) – kanonická korelační analýza (CCorA) – manifold learning metody (LLE, Isomap atd.) – metoda parciálních nejmenších čtverců (PLS) • metody extrakce proměnných často nazývány jako metody ordinační analýzy Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ordinační analýza dat = pohled ze správného úhlu • Vícerozměrná analýza nám pomáhá nalézt v x-dimenzionálním prostoru nejvhodnější pohled na data poskytující maximum informací o analyzovaných objektech 19 Všechny obrázky ukazují stejný objekt z různých úhlů v 3D prostoru. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Obecný princip redukce dimenzionality dat pomocí extrakce • V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze se navzájem vysvětlují a pro popis kompletní informace v datech není třeba všech dimenzí vstupního souboru • Všechny tzv. ordinační metody využívají principu identifikace korelovaných dimenzí a jejich sloučení do souhrnných nových dimenzí zastupujících několik dimenzí vstupního souboru 20 Jednoznačný vztah dimenzí x a y umožňuje jejich nahrazení jedinou novou dimenzí z x y z x y ? ? ? ? ?? ? ? V případě neexistence vztahu mezi x a y nemá smysl definovat nové dimenze – nepřináší žádnou novou informaci oproti x a y • Pokud mezi dimenzemi vstupního souboru neexistují korelace, nemá smysl hledat zjednodušení vícerozměrné struktury takovéhoto souboru !!! Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Korelace jako princip výpočtu vícerozměrných analýz • Kovariance a Pearsonova korelace je základem analýzy hlavních komponent, faktorové analýzy i dalších vícerozměrných analýz pracujících s lineární závislostí proměnných • Předpokladem výpočtu kovariance a Pearsonovy korelace je: – Normalita dat v obou dimenzích – Linearita vztahu proměnných • Pro vícerozměrné analýzy je nejzávažnějším problémem přítomnost odlehlých hodnot 21 x y x y x y Lineární vztah – bezproblémové použití Pearsonovy korelace Korelace je dána 2 skupinami hodnot – vede k identifikaci skupin objektů v datech Korelace je dána odlehlou hodnotu – analýza popisuje pouze vliv odlehlé hodnoty Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy ordinační analýzy • Ordinačních analýz existuje celá řada, některé jsou spjaty s konkrétními metrikami vzdáleností/podobností • V přehledu jsou uvedeny pouze základní typy analýz, nikoliv jejich různé kombinace hodnotící vztahy dvou a více sad proměnných (CCA, kanonická korelace, RDA, co-coordinate analysis, co-inertia analysis, diskriminační analýza apod.) 22 Typ analýzy Vstupní data Metrika Analýza hlavních komponent (PCA) NxP matice Korelace, kovariance, Euklidovská Faktorová analýza (FA) NxP matice Korelace, kovariance, Euklidovská Analýza nezávislých komponent (ICA) NxP matice Korelace, kovariance, Euklidovská Korespondenční analýza (CA) NxP matice Chi-square vzdálenost Analýza hlavních koordinát (PCoA) Asoc. matice libovolná Nemetrické mnohorozměrné škálování (MDS) Asoc. matice libovolná Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza hlavních komponent (PCA) 23 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza hlavních komponent • anglicky Principal Component Analysis (PCA) • snaha redukovat počet proměnných nalezením nových latentních proměnných (hlavních komponent) vysvětlujících co nejvíce variability původních proměnných • nové proměnné (X1, X2) lineární kombinací původních proměnných (Y1, Y2) 24 PCA x2 x1 x2 x1 y1 y2 Nevýhody: - nevyužívá informaci o příslušnosti subjektů do skupin - potřebné určit, kolik hlavních komponent se použije pro transformaci Výhody: + analýza na celém mozku + vícerozměrná metoda Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza hlavních komponent – cíle • Popis a vizualizace vztahů mezi proměnnými • Výběr neredundantních proměnných pro další analýzy • Vytvoření zástupných faktorových os pro použití v dalších analýzách • Identifikace shluků v datech spjatých s variabilitou dat • Identifikace vícerozměrně odlehlých objektů 25 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza hlavních komponent – předpoklady • vstupem do analýzy datová matice n x p obsahující kvantitativní proměnné (s normálním rozdělením) • předpoklady obdobné jako při výpočtu korelací a kovariancí: – nepřítomnost odlehlých hodnot (s výjimkou situace, kdy analýzu provádíme za účelem identifikace odlehlých hodnot) – nepřítomnost více skupin objektů (s výjimkou situace, kdy analýzu provádíme za účelem detekce přirozeně existujících shluků spjatých s největší variabilitou souboru) • datový soubor by měl mít více objektů než proměnných, pro získání stabilních výsledků se doporučuje alespoň 10x tolik objektů než proměnných, ideální je 40-60x více objektů než proměnných 26 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza hlavních komponent – volba asociační matice • autokorelační matice – data nejsou nijak upravena (zohledňována průměrná hodnota i rozptyl původních dat) • kovarianční (disperzní) matice – data centrována (od každé příznakové proměnné odečtena její střední hodnota) – zohledňován rozptyl původních dat • matice korelačních koeficientů – data standardizována (odečtení středních hodnot a podělení směrodatnými odchylkami) – použití pokud mají proměnné různá měřítka 27 • každou úpravou původních dat ale přicházíme o určitou informaci !!! Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 28 Analýza hlavních komponent – volba asociační matice x y autokorelační matice (data nijak neupravována) • s jakými daty PCA pracuje v případě použití různých asociačních matic: původní data x y matice korelačních koeficientů (odečten průměr a podělení SD) kovarianční matice (odečten průměr) x y y x ? ? ? ? ? ? ? ? ? ? ? ? Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza hlavních komponent – postup 1. Volba asociační matice (autokorelační, kovarianční nebo kor. koeficientů) 29 2. Výpočet vlastních čísel a vlastních vektorů asociační matice: – vlastní vektory definují směr nových faktorových os (hlavních komponent) v prostoru – vlastní čísla odrážejí variabilitu vysvětlenou příslušnou komponentou 3. Seřazení vlastních vektorů podle hodnot jim odpovídajících vlastních čísel (sestupně) 4. Výběr prvních m komponent vyčerpávajících nejvíce variability původních dat Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Identifikace optimálního počtu hlavních komponent pro další analýzu • pokud je cílem ordinační analýzy vizualizace dat, snažíme se vybrat 2-3 komponenty • pokud je cílem ordinační analýzy výběr menšího počtu dimenzí pro další analýzu, můžeme ponechat více komponent (např. u analýzy obrazů MRI je úspěchem redukce z milionu voxelů na desítky) 30 1. Kaiser Guttmanovo kritérium: – pro další analýzu jsou vybrány osy s vlastním číslem >1 (při analýze matice korelačních koeficientů) nebo větším než průměrná hodnota vlastních čísel (při analýze kovarianční matice) – logika je vybírat osy, které přispívají k vysvětlení variability dat více, než připadá rovnoměrným rozdělením variability • kritéria pro výběr počtu komponent: 2. Sutinový graf (scree plot) – grafický nástroj hledající zlom ve vztahu počtu os a vyčerpané variability 3. Sheppardův diagram – grafická analýza vztahu mezi vzdálenostmi objektů v původním prostoru a redukovaném prostoru o daném počtu dimenzí Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Sutinový graf (scree plot) 31 Eigenvalues of correlation matrix Active variables only 72.96% 22.85% 3.67% .52% 0 1 2 3 4 5 Eigenvalue number -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Eigenvalue 72.96% 22.85% 3.67% .52% Zlom ve vztahu mezi počtem vlastních čísel a jimi vyčerpanou variabilitou – pro další analýzu použity první dvě faktorové osy Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Sheppardův diagram • Vztahuje vzdálenosti v prostoru původních proměnných ke vzdálenostem v prostoru vytvořeném PCA • Je třeba brát ohled na typ PCA (korelace vs. kovariance) • Obecná metoda určení optimálního počtu dimenzí v ordinační analýze (třeba respektovat použitou asociační metriku) 32 Kosatce Kosatce standardizovane F1 F12 F123 F1234 Za optimální z hlediska zachování vzdáleností objektů lze považovat dvě nebo tři dimenze Při použití všech dimenzí jsou vzdálenosti perfektně zachovány Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA – geometrická interpretace 33 X1 X1 X2 X2 v1 v2 y použití obou hlavních komponent použití 1. hlavní komponenty použití 2. hlavní komponenty x2 x1 X1 X2 v2 y x2 X1 v1 yx1 X2 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA – rozdělení do tříd 34 odečtení průměru každé skupiny zvlášť odečtení celkového průměru → není vhodné → je vhodné Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA a klasifikace I • PCA často nebývá vhodnou metodou redukce dat před klasifikací 35 x y 1. hlavní komponenta 2. hlavní komponenta Pro klasifikaci vhodnější 2. HK, přestože vyčerpává méně variability! Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA a klasifikace II Když hlavní komponenta vyčerpává hodně variability, neznamená to, že musí rovněž dobře klasifikovat 36 proměnná 1 proměnná2 vysoká korelace mezi proměnnými 1 a 2 - způsobená tím, že se skupiny od sebe hodně liší vysoká korelace mezi proměnnými 1 a 2 - skupiny se ale od sebe neliší → v tomto případě obě proměnné budou korelovat s první hlavní komponentou a dokáží dobře diskriminovat pacienty a kontroly → v tomto případě obě proměnné budou také korelovat s první hlavní komponentou, ale nedokáží diskriminovat pacienty a kontroly proměnná 1proměnná2 pacient kontrola Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA – rozšiřující poznatky I 37 Výpočet PCA, když je počet proměnných mnohem větší než počet subjektů: - 1. způsob: iterativní postupný výpočet vlastních vektorů a vlastních čísel - 2. způsob: pPCA - výpočet vlastních vektorů vi „velké“ kovarianční matice (proměnných) XTX(p,p) z vlastních vektorů wi „malé“ kovarianční matice (subjektů) XXT (n,n) pomocí: V1 V2 … S1 S2 … proměnné Datová matice: V1 V2 … V1 V2 … 1 923 207 x 1 923 207 proměnné 173 x 1 923 207 Kovarianční matice subjektů: subjekty proměnné Kovarianční matice proměnných: 173 x 173 subjekty subjekty S1 S2 … S1 S2 …  1  ni i T i  wX v Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA – rozšiřující poznatky II 38 Souvislost se singulárním rozkladem (SVD – Singular Value Decomposition): T ),(),(),(),( pkkkknpn VUX  - matice U a V jsou ortogonální a normované (ortonormální) - matice U složena z vlastních (charakteristických) vektorů matice XXT (n,n) - matice V z vlastních vektorů matice XTX(p,p) - Matice Г je typu k x k a její diagonála je tvořena singulárními hodnotami, které jsou na hlavní diagonále uspořádány podle klesající velikosti a které jsou rovny odmocninám vlastních čísel matice XXT i XTX Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA – příklad – řešení v Matlabu • Zadání: Proveďte PCA na objemech 6 mozkových struktur u 833 subjektů. 39 • Řešení: [num, txt, raw] = xlsread('Data_neuro.xlsx',1); data = num(:,23:28); % vyber 6 promennych s objemy mozkovych struktur [coeff,score,latent] = pca(data); Matice vlastních vektorů vlastní vektory jsou ve sloupcích (jsou seřazené podle vlastních čísel) Souřadnice subjektů v novém prostoru hlavní komponenty jsou ve sloupcích (jsou seřazené podle vlastních čísel); v řádcích jsou subjekty Vlastní čísla Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA – příklad – řešení v softwaru R • Zadání: Proveďte PCA na objemech 6 mozkových struktur u 833 subjektů. 40 • Řešení: library(readxl) data <- read_excel('Data_neuro.xlsx',sheet="data") data <- data[,24:29] # vyber 6 promennych s objemy mozkovych struktur pca <- prcomp(data) # vypocet PCA s kovariancni matici; tzn. pouzito defaulni center=TRUE a scale=FALSE; pro m. korel. koef. – prcomp(data,scale=TRUE) pca$sdev^2 # vlastni cisla pca$rotation # vlastni vektory (ve sloupcich, serazene podle vlastnich cisel) pca$x # hlavni komponenty (tj. souradnice subjektu v novem prostoru) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 41 PCA – příklad – řešení v softwaru Statistica I • Zadání: Proveďte PCA na objemech 6 mozkových struktur u 833 subjektů. • Řešení: Statistics – Multivariate Exploratory Techniques – Principal Components & Classification Analysis zvolit, zda se má počítat kovarianční či korelační matice vybrat proměnné Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 42 PCA – příklad – řešení v softwaru Statistica II Souřadnice subjektů v novém prostoru Matice vlastních vektorů Vlastní čísla Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 43 PCA – příklad – řešení v softwaru Statistica III Normalizace vlastních vektorů: - zkopírovat do Excelu („Copy with headers“) - použití vzorce: =B3/ODMOCNINA(SUMA.ČTVERCŮ(B$3:B$8)) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 44 PCA – příklad – řešení v softwaru Statistica IV Záložka Variables: Factor & variable correlations Plot var. factor coordinates, 2D Z výsledků vyplývá, že: - 1. hlavní komponenta je nejvíce korelovaná s objemem Nucleus caudatus - 2. hlavní komponenta je korelovaná s objemem hipokampu a také s objemem amygdaly a putamenu Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA – příklad – řešení v softwaru SPSS • Zadání: Proveďte PCA na objemech 6 mozkových struktur u 833 subjektů. 45 • Řešení: SPSS: Analyze – Dimension Reduction – Factor... - záložka Extraction: - volba metody (ponechat Principal components) - volba Correlation matrix či Covariance matrix (pozor, Correlation matrix je defaultní! tzn. přepnout na Covariance matrix) - možnost zatrhnout vykreslení Scree plotu - volba, kolik hlavních komponent se vytvoří (přepnout na Fixed number... a zvolit 6, když mám 6 vstupních proměnných) - záložka Rotation – ponechám zatržené „None“ - záložka Scores... – zatrhnout „Save as variable“ a případně i zatrhnout „Display factor score coefficient matrix“ Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PCA – příklad – řešení v softwaru SPSS 46 Vlastní čísla Sutinový graf Matice vlastních vektorů * * normalizace vl. vektorů by se provedla v exelu (viz. slide 35) Souřadnice subjektů v novém prostoru (jsou standardizované) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Faktorová analýza (FA) 47 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Faktorová analýza (FA) • Anglicky: Factor Analysis • Princip: Vytvoření nových proměnných (komponent, faktorů) z původních proměnných tak, aby zůstalo zachováno co nejvíce kovariance. 48 Nevýhoda oproti PCA: - prostor pro subjektivní názor analytika při výběru rotace Výhoda oproti PCA: + lepší interpretace nových proměnných Stejný postup jako u PCA + 1 krok navíc – rotace komponent Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Faktorová analýza • faktorová analýza se snaží vysvětlit strukturu dat pomocí tzv. společných faktorů vysvětlujících sadu původních proměnných • cíle, předpoklady, vstupní data a většina výpočtů obdobná jako u analýzy hlavních komponent 49 • čím se principielně liší od analýzy hlavních komponent? – Analýza hlavních komponent – vysvětlení maxima variability v datech – Faktorová analýza – vysvětlení maxima kovariance mezi popisnými proměnnými • čím se prakticky liší od analýzy hlavních komponent? – Hlavním praktickým rozdílem je rotace proměnných tak, aby se vytvořené faktorové osy daly dobře interpretovat – Výhodou je lepší interpretace vztahu původních proměnných – Nevýhodou je prostor pro subjektivní názor analytika daný výběrem rotace • typy faktorové analýzy – Vysvětlující (Explanatory) – snaží se identifikovat minimální počet faktorů pro vysvětlení dat – Potvrzující (Confirmatory) – testuje hypotézy ohledně skryté struktury v datech Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Společné faktory a základní možné rotace 50 Unikátní faktorPozorovaná proměnnáSpolečný faktor u1 u2 u3 u4 u5 y1 y2 y3 y4 y5 f1 f2 Rotace ortogonální - Nezávislé faktory u1 u2 u3 u4 u5 y1 y2 y3 y4 y5 f1 f2 Rotace neortogonální - Faktory jsou závislé za účelem zvýšení intepretovatelnosti Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Faktorová analýza – postup výpočtu 1. extrakce prvotních faktorů z kovarianční matice (analogie vlastních vektorů v PCA) – oproti PCA pracuje pouze s částí variability každé proměnné (tzv. communality), která je sdílena společnými faktory – několik možných algoritmů – principal factoring, metoda nejmenších čtverců, maximum likelihood apod. – výsledkem je komplexní struktura faktorů (obdobná PCA), kde řada faktorů má významné loadings (vztahy) k původním proměnným, počet takových faktorů je tzv. komplexita faktorů 51 2. v druhém kroku je rotací dosaženo zjednodušení struktury faktorů, tj. vztah mezi společnými faktory a původními proměnnými je zjednodušen (každá původní proměnná má hlavní vztah s jedním faktorem nebo malým počtem faktorů) – dva hlavní typy rotace: ‐ ortogonální – faktory nemohou být korelovány, jsou tedy zcela nezávislé ‐ neortogonální – faktory mohou být korelovány, nejsou tedy zcela nezávislé; vzhledem ke korelacím obtížnější interpretace Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Faktorová analýza - rotace • Ortogonální rotace – Quartimax – minimalizuje sumu čtverců loadings původních proměnných na faktorových osách, tedy zjednodušuje řádky matice loadings (=každá původní proměnná má největší loadings na jedné faktorové ose) – Varimax – zjednodušuje sloupce matice loadings – Equimax – zjednodušuje řádky i sloupce matice loadings – Biquartimax – varianta equimax 52 • Neortogonální rotace – Oblimax – Quartimin – Oblimin – Covarimin – Biquartimin – Atd. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách FA – příklad – řešení v softwaru R • Zadání: Proveďte FA na datech z dotazníků. 53 • Řešení: Použití funkce „fa“ z knihovny „psych“. Detailní výpočet v souboru FA_ukazka.R Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách FA – příklad – řešení v softwaru SPSS • Zadání: Proveďte FA na datech z dotazníků. 54 • Řešení: SPSS: Analyze – Dimension Reduction – Factor... - záložka Extraction: - volba metody – Unweighted least squares (to by mělo odpovídat fm=„minres“ v Rku) - možnost zatrhnout vykreslení Scree plotu - volba, kolik faktorů se vytvoří (přepnout na Fixed number... a zvolit nejprve 2, pokud je možné je interpretovat, změnit na 3 atd.) - záložka Rotation – několik možností, zvolit např. „Varimax“ (zkusit případně více rotací a podívat se, co dává nejvíce interpretovatelné výsledky) - záložka Scores... – zatrhnout „Save as variable“; lze zvolit více metod, např. Bartlett (hodnoty jsou však mírně odlišné od hodnot z Rka) • Výsledek: Pro interpretaci faktorů použít „Rotated Factor Matrix“ (zkopírovat do excelu a podívat se, u kterých původních proměnných jsou pro jednotlivé faktory hodnoty větší než např. 0,7) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 55