© Institut biostatistiky a analýz
Pokročilé metody analýzy dat
v neurovědách
RNDr. Eva Koriťáková, Ph.D.
doc. RNDr. Ladislav Dušek, Dr.
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Blok 5
Ordinační analýzy I
2
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Osnova
1. Principy redukce dimenzionality dat
2. Selekce a extrakce proměnných
3. Analýza hlavních komponent (PCA)
4. Faktorová analýza (FA)
3
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Principy redukce
dimenzionality dat
4
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Schéma analýzy a klasifikace dat
5
Data
Předzpracování
Redukce
Klasifikace nebo
?
?
Data
Předzpracování
Redukce
Ukázka - kognitivní data apod. Ukázka - obrazová data
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Proč používat redukci dat?
6
x1 x2 …
I1
I2
…
voxely
subjekty
270 x 1 000 000
Klasifikace
𝑿
I1 pac.
I2 kon.
…
subjekty
Obrazová data
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Proč používat redukci dat?
7
Redukce dat
x1 x2 …
I1
I2
…
voxely
subjekty
270 x 1 000 000
x1 x5 …
I1
I2
…
voxely
subjekty
270 x
1 000
Klasifikace
𝑿
I1 pac.
I2 kon.
…
subjekty
Obrazová data
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Proč používat redukci dat?
• zjednodušení další práce s daty
• možnost použití metod analýzy dat, které by na původní data nebylo
možno použít
• umožnění vizualizace vícerozměrných dat – může být nápomocné
k nalezení vztahů v datech či k jejich interpretaci
• redukce dat může být i cílem analýzy (např. identifikace oblastí mozku,
kde se nejvíce liší od sebe liší skupiny subjektů)
8
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Volba a výběr proměnných – úvod
• kolik a jaké proměnné?
– málo proměnných – možná nízká úspěšnost klasifikace či jiných následných
analýz
– moc proměnných – možná nepřiměřená pracnost, vysoké náklady
9

KOMPROMIS
(určit ty proměnné, jejichž hodnoty nesou nejvíce informace
z hlediska řešené úlohy, tj. např. ty proměnné, kterou jsou
nejefektivnější pro vytvoření co nejoddělenějších
klasifikačních tříd)
• počáteční volba proměnných je z velké části empirická, vychází ze
zkušeností získaných při empirické klasifikaci člověkem a závisí kromě
rozboru podstaty problému i na technických (ekonomických) možnostech a
schopnostech hodnoty proměnných určit
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Zásady pro volbu proměnných I
• výběr proměnných s minimálním rozptylem uvnitř tříd
• výběr proměnných s maximální vzdáleností mezi třídami
10
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Zásady pro volbu proměnných II
• výběr vzájemně nekorelovaných proměnných
– pokud jsou hodnoty jedné proměnné závislé na hodnotách druhé proměnné,
pak použití obou těchto proměnných nepřináší žádnou další informaci – stačí
jedna z nich, jedno která
• výběr proměnných invariantních vůči deformacím
– volba elementů formálního popisu závisí na vlastnostech původních i
předzpracovaných dat a může ovlivňovat způsob předzpracování
11
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Selekce a extrakce
proměnných
12
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Selekce a extrakce proměnných
• popis objektu původně reprezentovaný p rozměrným vektorem se snažíme
vyjádřit vektorem m rozměrným tak, aby množství diskriminační informace
obsažené v původním vektoru bylo v co největší míře zachováno
• dva principiálně různé způsoby:
13
1. selekce – výběr těch proměnných, které přispívají k separabilitě
klasifikačních tříd nejvíce
2. extrakce – transformace původních proměnných na menší počet
jiných proměnných (které zpravidla nelze přímo měřit a často nemají
zcela jasnou interpretaci)
x1 x2 x3 x4 x5 x6 x7 x8 …
I1 pac.
I2 pac.
I3 kont.
…
proměnné
subjekty
x1 x2 x3 x4 x5 x6 x7 x8 …
I1 pac.
I2 pac.
I3 kont.
…
proměnné
subjekty
y1 y2 y3 y4
I1
I2
I3
…
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Selekce proměnných
• cílem je výběr proměnných, které jsou nejužitečnější pro další analýzu
(např. při klasifikaci výběr takových proměnných, které nejlépe od sebe
dokáží oddělit skupiny subjektů/objektů)
14
• metod selekce je velké množství, nejpoužívanější metody jsou:
– výběr proměnných na základě statistických testů
– výběr oblastí mozku (ROI) podle atlasu
– algoritmy sekvenční selekce (dopředné či zpětné nebo algoritmus plus p mínus q)
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Výběr proměnných na základě statistických testů
15
Nevýhody:
- jednorozměrná metoda (výběr proměnných bez ohledu na ostatní proměnné)
- potřeba použít metody korekce pro mnohonásobné testování (např. FDR)
Výhody:
+ rychlé
+ u obrazů mozku výhodou, že je analýza provedena na celém mozku
x1 x2 x3 x4 x5 x6 x7 x8 …
I1 pac.
I2 pac.
I3 kont.
I4 pac.
I5 kont.
…
proměnné
subjekty
p-hodnoty:
Princip: Výběr statisticky významných proměnných pomocí dvouvýběrového t-testu
či Mannova-Whitneyova testu.
0,34 0,02 0,09 0,01 0,25 0,63 0,03 0,12
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Výběr oblastí mozku (ROI) podle atlasu
16
Nevýhody:
- ne vždy dopředu víme, která z oblastí je vhodná pro odlišení skupin osob
- některá onemocnění postihují celý mozek (např. schizofrenie)
Výhody:
+ anatomicky/funkčně relevantní – snadnější interpretace
+ zpravidla rychlé
Princip: Výběr oblastí mozku s využitím atlasu mozku podle expertní znalosti
daného onemocnění (tzn. výběr oblasti postižené danou nemocí).
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Algoritmy sekvenční selekce
• algoritmus sekvenční dopředné selekce:
– algoritmus začíná s prázdnou množinou, do které se vloží proměnná s nejlepší
hodnotou selekčního kritéria
– v každém následujícím kroku se přidá ta proměnná, která s dříve vybranými
veličinami dosáhla nejlepší hodnoty kritéria
17
• algoritmus sekvenční zpětné selekce:
– algoritmus začíná s množinou všech proměnných
– v každém následujícím kroku se eliminuje ta proměnná, která způsobuje
nejmenší pokles kriteriální funkce
- dopředná selekce – nelze vyloučit ty veličiny, které se staly nadbytečné po
přiřazení dalších veličin
- zpětná selekce – neexistuje možnost opravy při neoptimálním vyloučení
kterékoliv proměnné
+ dopředný algoritmus je výpočetně jednodušší, protože pracuje maximálně
v n-rozměrném prostoru
+ zpětný algoritmus umožňuje průběžně sledovat množství ztracené informace
Výhody :
Nevýhody :
• algoritmus plus p mínus q:
– po přidání p veličin se q veličin odstraní;
– proces probíhá, dokud se nedosáhne požadovaného počtu příznaků
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Extrakce proměnných
• jednou z možných přístupů redukce dat
18
• transformace původních proměnných na menší počet jiných proměnných
 tzn. hledání (optimálního) zobrazení Z, které transformuje původní prozměrný
prostor (obraz) na prostor (obraz) m-rozměrný (p  m)
• pro snadnější řešitelnost hledáme zobrazení Z v oboru lineárních zobrazení
• metody extrakce proměnných:
– analýza hlavních komponent (PCA)
– faktorová analýza (FA)
– analýza nezávislých komponent (ICA)
– korespondenční analýza (CA)
– vícerozměrné škálování (MDS)
– redundanční analýza (RDA)
– kanonická korelační analýza (CCorA)
– manifold learning metody (LLE, Isomap atd.)
– metoda parciálních nejmenších čtverců (PLS)
• metody extrakce proměnných často nazývány jako metody ordinační analýzy
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Ordinační analýza dat = pohled ze správného úhlu
• Vícerozměrná analýza nám pomáhá nalézt v x-dimenzionálním prostoru
nejvhodnější pohled na data poskytující maximum informací o
analyzovaných objektech
19
Všechny obrázky ukazují stejný objekt z různých úhlů v 3D prostoru.
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Obecný princip redukce dimenzionality dat pomocí extrakce
• V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy
dimenze se navzájem vysvětlují a pro popis kompletní informace v datech
není třeba všech dimenzí vstupního souboru
• Všechny tzv. ordinační metody využívají principu identifikace korelovaných
dimenzí a jejich sloučení do souhrnných nových dimenzí zastupujících
několik dimenzí vstupního souboru
20
Jednoznačný vztah dimenzí x a y
umožňuje jejich nahrazení
jedinou novou dimenzí z
x
y z
x
y ?
?
?
?
??
?
?
V případě neexistence vztahu mezi
x a y nemá smysl definovat nové
dimenze – nepřináší žádnou novou
informaci oproti x a y
• Pokud mezi dimenzemi vstupního souboru neexistují korelace, nemá smysl
hledat zjednodušení vícerozměrné struktury takovéhoto souboru !!!
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Korelace jako princip výpočtu vícerozměrných analýz
• Kovariance a Pearsonova korelace je základem analýzy hlavních
komponent, faktorové analýzy jakož i dalších vícerozměrných analýz
pracujících s lineární závislostí proměnných
• Předpokladem výpočtu kovariance a Pearsonovy korelace je:
– Normalita dat v obou dimenzích
– Linearita vztahu proměnných
• Pro vícerozměrné analýzy je nejzávažnějším problémem přítomnost
odlehlých hodnot
21
x
y
x
y
x
y
Lineární vztah –
bezproblémové použití
Pearsonovy korelace
Korelace je dána 2 skupinami
hodnot – vede k identifikaci
skupin objektů v datech
Korelace je dána odlehlou
hodnotu – analýza popisuje
pouze vliv odlehlé hodnoty
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Typy ordinační analýzy
• Ordinačních analýz existuje celá řada, některé jsou spjaty s konkrétními
metrikami vzdáleností/podobností
• V přehledu jsou uvedeny pouze základní typy analýz, nikoliv jejich různé
kombinace hodnotící vztahy dvou a více sad proměnných (CCA, kanonická
korelace, RDA, co-coordinate analysis, co-inertia analysis, diskriminační
analýza apod.)
22
Typ analýzy Vstupní data Metrika
Analýza hlavních komponent (PCA) NxP matice Korelace, kovariance, Euklidovská
Faktorová analýza (FA) NxP matice Korelace, kovariance, Euklidovská
Analýza nezávislých komponent (ICA) NxP matice Korelace, kovariance, Euklidovská
Korespondenční analýza (CA) NxP matice Chi-square vzdálenost
Analýza hlavních koordinát (PCoA) Asoc. matice libovolná
Nemetrické mnohorozměrné
škálování (MDS)
Asoc. matice libovolná
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent
(PCA)
23
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent
• anglicky Principal Component Analysis (PCA)
• snaha redukovat počet proměnných nalezením nových latentních
proměnných (hlavních komponent) vysvětlujících co nejvíce variability
původních proměnných
• nové proměnné (X1, X2) lineární kombinací původních proměnných (Y1, Y2)
24
PCA
x2
x1
x2
x1
y1
y2
Nevýhody:
- nevyužívá informaci o příslušnosti subjektů do skupin
- potřebné určit, kolik hlavních komponent se použije pro transformaci
Výhody:
+ analýza na celém mozku
+ vícerozměrná metoda
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent – cíle
• Popis a vizualizace vztahů mezi proměnnými
• Výběr neredundantních proměnných pro další analýzy
• Vytvoření zástupných faktorových os pro použití v dalších analýzách
• Identifikace shluků v datech spjatých s variabilitou dat
• Identifikace vícerozměrně odlehlých objektů
25
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent – předpoklady
• vstupem do analýzy datová matice n x p obsahující kvantitativní proměnné
(s normálním rozdělením)
• předpoklady obdobné jako při výpočtu korelací a kovariancí:
– nepřítomnost odlehlých hodnot (s výjimkou situace, kdy analýzu provádíme za
účelem identifikace odlehlých hodnot)
– nepřítomnost více skupin objektů (s výjimkou situace, kdy analýzu provádíme
za účelem detekce přirozeně existujících shluků spjatých s největší variabilitou
souboru)
• datový soubor by měl mít více objektů než proměnných, pro získání
stabilních výsledků se doporučuje alespoň 10x tolik objektů než
proměnných, ideální je 40-60x více objektů než proměnných
26
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent – volba asociační matice
• autokorelační matice – data nejsou nijak upravena (zohledňována
průměrná hodnota i rozptyl původních dat)
• kovarianční (disperzní) matice – data centrována (od každé příznakové
proměnné odečtena její střední hodnota) – zohledňován rozptyl původních
dat
• matice korelačních koeficientů – data standardizována (odečtení
středních hodnot a podělení směrodatnými odchylkami) – použití pokud
mají proměnné různá měřítka
27
• každou úpravou původních dat ale přicházíme o určitou informaci !!!
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 28
Analýza hlavních komponent – volba asociační matice
x
y
autokorelační matice
(data nijak neupravována)
• s jakými daty PCA pracuje v případě použití různých asociačních matic:
původní data
x
y
matice korelačních koeficientů
(odečten průměr a podělení SD)
kovarianční matice
(odečten průměr)
x
y
y
x
?
?
?
?
?
?
?
?
?
?
?
?
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent – postup
1. Volba asociační matice (autokorelační, kovarianční nebo kor. koeficientů)
29
2. Výpočet vlastních čísel a vlastních vektorů asociační matice:
– vlastní vektory definují směr nových faktorových os (hlavních komponent)
v prostoru
– vlastní čísla odrážejí variabilitu vysvětlenou příslušnou komponentou
3. Seřazení vlastních vektorů podle hodnot jim odpovídajících vlastních čísel
(sestupně)
4. Výběr prvních m komponent vyčerpávajících nejvíce variability původních
dat
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Identifikace optimálního počtu hlavních komponent
pro další analýzu
• pokud je cílem ordinační analýzy vizualizace dat, snažíme se vybrat 2-3
komponenty
• pokud je cílem ordinační analýzy výběr menšího počtu dimenzí pro další
analýzu, můžeme ponechat více komponent (např. u analýzy obrazů MRI
je úspěchem redukce z milionu voxelů na desítky)
30
1. Kaiser Guttmanovo kritérium:
– pro další analýzu jsou vybrány osy s vlastním číslem >1 (při analýze matice
korelačních koeficientů) nebo větším než průměrná hodnota vlastních
čísel (při analýze kovarianční matice)
– logika je vybírat osy, které přispívají k vysvětlení variability dat více, než
připadá rovnoměrným rozdělením variability
• kritéria pro výběr počtu komponent:
2. Sutinový graf (scree plot)
– grafický nástroj hledající zlom ve vztahu počtu os a vyčerpané variability
3. Sheppardův diagram
– grafická analýza vztahu mezi vzdálenostmi objektů v původním prostoru a
redukovaném prostoru o daném počtu dimenzí
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Sutinový graf (scree plot)
31
Eigenvalues of correlation matrix
Active variables only
72.96%
22.85%
3.67%
.52%
0 1 2 3 4 5
Eigenvalue number
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Eigenvalue
72.96%
22.85%
3.67%
.52%
Zlom ve vztahu mezi počtem vlastních čísel
a jimi vyčerpanou variabilitou – pro další
analýzu použity první dvě faktorové osy
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Sheppardův diagram
• Vztahuje vzdálenosti v prostoru původních proměnných ke vzdálenostem v prostoru vytvořeném PCA
• Je třeba brát ohled na typ PCA (korelace vs. kovariance)
• Obecná metoda určení optimálního počtu dimenzí v ordinační analýze (třeba respektovat použitou
asociační metriku)
32
Kosatce
Kosatce standardizovane
F1
F12
F123
F1234
Za optimální z hlediska
zachování vzdáleností
objektů lze považovat
dvě nebo tři dimenze
Při použití všech dimenzí
jsou vzdálenosti
perfektně zachovány
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – geometrická interpretace
33
X1
X1
X2
X2
v1
v2
y
použití obou hlavních komponent
použití 1. hlavní komponenty použití 2. hlavní komponenty
x2
x1
X1
X2
v2
y
x2
X1
v1
yx1
X2
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – rozdělení do tříd
34
odečtení průměru každé skupiny zvlášť odečtení celkového průměru
→ není vhodné → je vhodné
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA a klasifikace I
• PCA často nebývá vhodnou metodou redukce dat před klasifikací
35
x
y
1. hlavní komponenta
2. hlavní
komponenta
Pro klasifikaci
vhodnější 2. HK,
přestože vyčerpává
méně variability!
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA a klasifikace II
Když hlavní komponenta vyčerpává hodně variability, neznamená to, že musí
rovněž dobře klasifikovat
36Koriťáková: Analýza a klasifikace dat
proměnná 1
proměnná2
vysoká korelace mezi proměnnými 1 a 2
- způsobená tím, že se skupiny od sebe
hodně liší
vysoká korelace mezi proměnnými 1 a 2
- skupiny se ale od sebe neliší
→ v tomto případě obě proměnné
budou korelovat s první hlavní
komponentou a dokáží dobře
diskriminovat pacienty a kontroly
→ v tomto případě obě proměnné
budou také korelovat s první hlavní
komponentou, ale nedokáží
diskriminovat pacienty a kontroly
proměnná 1proměnná2
pacient
kontrola
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – rozšiřující poznatky I
37
Výpočet PCA, když je počet proměnných mnohem větší než počet subjektů:
- 1. způsob: iterativní postupný výpočet vlastních vektorů a vlastních čísel
- 2. způsob: pPCA - výpočet vlastních vektorů vi „velké“ kovarianční matice
(proměnných) XTX(p,p) z vlastních vektorů wi „malé“ kovarianční matice (subjektů)
XXT
(n,n) pomocí:
V1 V2 …
S1
S2
…
proměnné
Datová matice:
V1 V2 …
V1
V2
…
1 923 207
x
1 923 207
proměnné
173 x 1 923 207
Kovarianční
matice subjektů:
subjekty
proměnné
Kovarianční
matice
proměnných:
173
x
173
subjekty
subjekty
S1 S2 …
S1
S2
…
 1

ni
i
T
i

wX
v
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – rozšiřující poznatky II
38
Souvislost se singulárním rozkladem (SVD – Singular Value Decomposition):
T
),(),(),(),( pkkkknpn VUX 
- matice U a V jsou ortogonální a normované (ortonormální)
- matice U složena z vlastních (charakteristických) vektorů matice XXT
(n,n)
- matice V z vlastních vektorů matice XTX(p,p)
- Matice Г je typu k x k a její diagonála je tvořena singulárními hodnotami, které
jsou na hlavní diagonále uspořádány podle klesající velikosti a které jsou rovny
odmocninám vlastních čísel matice XXT i XTX
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – příklad – řešení v Matlabu
• Zadání: Proveďte PCA na objemech 6 mozkových struktur u 833 subjektů.
39
• Řešení:
[num, txt, raw] = xlsread('Data_neuro.xlsx',1);
data = num(:,23:28); % vyber 6 promennych s objemy mozkovych struktur
[coeff,score,latent] = pca(data);
Matice vlastních vektorů
vlastní vektory jsou ve
sloupcích (jsou seřazené
podle vlastních čísel)
Souřadnice subjektů v novém prostoru
hlavní komponenty jsou ve sloupcích (jsou
seřazené podle vlastních čísel);
v řádcích jsou subjekty
Vlastní čísla
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 40
PCA – příklad – řešení v softwaru Statistica I
• Zadání: Proveďte PCA na objemech 6 mozkových struktur u 833 subjektů.
• Řešení: Statistics – Multivariate Exploratory Techniques – Principal
Components & Classification Analysis
zvolit, zda se má počítat
kovarianční či korelační
matice
vybrat proměnné
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 41
PCA – příklad – řešení v softwaru Statistica II
Souřadnice
subjektů v
novém
prostoru
Matice vlastních vektorů
Vlastní čísla
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 42
PCA – příklad – řešení v softwaru Statistica III
Normalizace vlastních vektorů:
- zkopírovat do Excelu („Copy with headers“)
- použití vzorce: =B3/ODMOCNINA(SUMA.ČTVERCŮ(B$3:B$8))
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 43
PCA – příklad – řešení v softwaru Statistica IV
Záložka Variables:
Factor & variable correlations Plot var. factor coordinates, 2D
Z výsledků vyplývá, že:
- 1. hlavní komponenta je nevíce
korelovaná s objemem Nucleus caudatus
- 2. hlavní komponenta je korelovaná s
objemem hipokampu a také s objemem
amygdaly a putamenu
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza (FA)
44
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza (FA)
• Anglicky: Factor Analysis
• Princip: Vytvoření nových proměnných (komponent, faktorů) z původních
proměnných tak, aby zůstalo zachováno co nejvíce kovariance.
45
Nevýhoda oproti PCA:
- prostor pro subjektivní názor analytika při
výběru rotace
Výhoda oproti PCA:
+ lepší interpretace nových proměnných
Stejný postup jako u PCA
+ 1 krok navíc – rotace komponent
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza
• faktorová analýza se snaží vysvětlit strukturu dat pomocí tzv. společných
faktorů vysvětlujících sadu původních proměnných
• cíle, předpoklady, vstupní data a většina výpočtů obdobná jako u analýzy
hlavních komponent
46
• čím se principielně liší od analýzy hlavních komponent?
– Analýza hlavních komponent – vysvětlení maxima variability v datech
– Faktorová analýza – vysvětlení maxima kovariance mezi popisnými
proměnnými
• čím se prakticky liší od analýzy hlavních komponent?
– Hlavním praktickým rozdílem je rotace proměnných tak, aby se vytvořené
faktorové osy daly dobře interpretovat
– Výhodou je lepší interpretace vztahu původních proměnných
– Nevýhodou je prostor pro subjektivní názor analytika daný výběrem rotace
• typy faktorové analýzy
– Vysvětlující (Explanatory) – snaží se identifikovat minimální počet faktorů pro
vysvětlení dat
– Potvrzující (Confirmatory) – testuje hypotézy ohledně skryté struktury
v datech
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Společné faktory a základní možné rotace
47
Unikátní faktorPozorovaná proměnnáSpolečný faktor
u1
u2
u3
u4
u5
y1
y2
y3
y4
y5
f1
f2
Rotace ortogonální
- Nezávislé faktory
u1
u2
u3
u4
u5
y1
y2
y3
y4
y5
f1
f2
Rotace neortogonální
- Faktory jsou závislé za
účelem zvýšení
intepretovatelnosti
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza – postup výpočtu
1. extrakce prvotních faktorů z kovarianční matice (analogie vlastních vektorů
v PCA)
– oproti PCA pracuje pouze s částí variability každé proměnné (tzv.
communality), která je sdílena společnými faktory
– několik možných algoritmů – principal factoring, metoda nejmenších čtverců,
maximum likelihood apod.
– výsledkem je komplexní struktura faktorů (obdobná PCA), kde řada faktorů má
významné loadings (vztahy) k původním proměnným, počet takových faktorů
je tzv. komplexita faktorů
48
2. v druhém kroku je rotací dosaženo zjednodušení struktury faktorů, tj.
vztah mezi společnými faktory a původními proměnnými je zjednodušen
(každá původní proměnná má hlavní vztah s jedním faktorem nebo
malým počtem faktorů)
– dva hlavní typy rotace:
‐ ortogonální – faktory nemohou být korelovány, jsou tedy zcela
nezávislé
‐ neortogonální – faktory mohou být korelovány, nejsou tedy zcela
nezávislé; vzhledem ke korelacím obtížnější interpretace
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza - rotace
• Ortogonální rotace
– Quartimax – minimalizuje sumu čtverců loadings původních proměnných na
faktorových osách, tedy zjednodušuje řádky matice loadings (=každá původní
proměnná má největší loadings na jedné faktorové ose)
– Varimax – zjednodušuje sloupce matice loadings
– Equimax – zjednodušuje řádky i sloupce matice loadings
– Biquartimax – varianta equimax
49
• Neortogonální rotace
– Oblimax
– Quartimin
– Oblimin
– Covarimin
– Biquartimin
– Atd.
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Poděkování
Příprava výukových materiálů předmětu
„DSAN02 Pokročilé metody analýzy dat v neurovědách“
byla finančně podporována prostředky projektu FRMU
č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat
v neurovědách jako nový předmět na LF MU“
50