zahlavi-IBA logo-IBA logo-MU
© Institut biostatistiky a analýz
Pokročilé metody analýzy dat
v neurovědách
RNDr. Eva Koriťáková, Ph.D.
doc. RNDr. Ladislav Dušek, Dr.

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Blok 5
Ordinační analýzy I
2

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Osnova
1.Principy redukce dimenzionality dat
2.Selekce a extrakce proměnných
3.Analýza hlavních komponent (PCA)
4.Faktorová analýza (FA)
3

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Principy redukce
dimenzionality dat
4

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Schéma analýzy a klasifikace dat
5
Data
Předzpracování
Redukce
Klasifikace
nebo
?
?
Výřez obrazovky Výřez obrazovky
Data
Předzpracování
Redukce
Ukázka - kognitivní data apod.
Ukázka - obrazová data

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Proč používat redukci dat?
6

x1
x2
…
 I1
 I2
 …
•voxely
•270 x 1 000 000
Klasifikace


 I1
pac.
 I2
kon.
 …
•Obrazová data

Protože když naskládáme 3D obrazy do datové tabulky, kde jednotlivé obrazy jsou řádky (3-D obraz
bychom nařezali na proužky a poskládali za sebe), je datová matice obrovská.
Je tudíž vhodné vybrat jen některé voxely a ty pak použít na klasifikaci, tedy na zařazení obrazů z
testovací sady do skupiny kontrol (označeni jako 0) či pacientů (označeni jako 1).

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Proč používat redukci dat?
7
Redukce dat

x1
x2
…
 I1
 I2
 …
•voxely
•270 x 1 000 000

x1
x5
…
 I1
 I2
 …
•voxely
•270 x 1 000
Klasifikace


 I1
pac.
 I2
kon.
 …
•Obrazová data

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Proč používat redukci dat?
•zjednodušení další práce s daty
•možnost použití metod analýzy dat, které by na původní data nebylo možno použít
•umožnění vizualizace vícerozměrných dat – může být nápomocné
k nalezení vztahů v datech či k jejich interpretaci
•redukce dat může být i cílem analýzy (např. identifikace oblastí mozku, kde se nejvíce liší od
sebe liší skupiny subjektů)
•
8

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Volba a výběr proměnných – úvod
•kolik a jaké proměnné?
–málo proměnných – možná nízká úspěšnost klasifikace či jiných následných analýz
–moc proměnných – možná nepřiměřená pracnost, vysoké náklady
9
•ß
•KOMPROMIS
•(určit ty proměnné, jejichž hodnoty nesou nejvíce informace z hlediska řešené úlohy, tj. např. ty
proměnné, kterou jsou nejefektivnější pro vytvoření co nejoddělenějších klasifikačních tříd)
•počáteční volba proměnných je z velké části empirická, vychází ze zkušeností získaných při
empirické klasifikaci člověkem a závisí kromě rozboru podstaty problému i na technických
(ekonomických) možnostech a schopnostech hodnoty proměnných určit
•

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Zásady pro volbu proměnných I
•výběr proměnných s minimálním rozptylem uvnitř tříd
•
•výběr proměnných s maximální vzdáleností mezi třídami
10

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Zásady pro volbu proměnných II
•výběr vzájemně nekorelovaných proměnných
–pokud jsou hodnoty jedné proměnné závislé na hodnotách druhé proměnné, pak použití obou těchto
proměnných nepřináší žádnou další informaci – stačí jedna z nich, jedno která
•výběr proměnných invariantních vůči deformacím
–volba elementů formálního popisu závisí na vlastnostech původních i předzpracovaných dat a může
ovlivňovat způsob předzpracování
11

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Selekce a extrakce
proměnných
12

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Selekce a extrakce proměnných
•popis objektu původně reprezentovaný p rozměrným vektorem se snažíme vyjádřit vektorem m rozměrným
tak, aby množství diskriminační informace obsažené v původním vektoru bylo v co největší míře
zachováno
•dva principiálně různé způsoby:
13
1.selekce – výběr těch proměnných, které přispívají k separabilitě klasifikačních tříd nejvíce
•
2.extrakce – transformace původních proměnných na menší počet jiných proměnných (které zpravidla
nelze přímo měřit a často nemají zcela jasnou interpretaci)

x1
x2
x3
x4
x5
x6
x7
x8
…
 I1
pac.
 I2
pac.
 I3
kont.
 …
•proměnné

x1
x2
x3
x4
x5
x6
x7
x8
…
 I1
pac.
 I2
pac.
 I3
kont.
 …
•proměnné

y1
y2
y3
y4
 I1
 I2
 I3
 …

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Selekce proměnných
•cílem je výběr proměnných, které jsou nejužitečnější pro další analýzu (např. při klasifikaci
výběr takových proměnných, které nejlépe od sebe dokáží oddělit skupiny subjektů/objektů)
14
•metod selekce je velké množství, nejpoužívanější metody jsou:
–výběr proměnných na základě statistických testů
–výběr oblastí mozku (ROI) podle atlasu
–algoritmy sekvenční selekce (dopředné či zpětné nebo algoritmus plus p mínus q)

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Výběr proměnných na základě statistických testů
15
Nevýhody:
-  jednorozměrná metoda (výběr proměnných bez ohledu na ostatní proměnné)
-  potřeba použít metody korekce pro mnohonásobné testování (např. FDR)
Výhody:
+ rychlé
+ u obrazů mozku výhodou, že je analýza provedena na celém mozku

x1
x2
x3
x4
x5
x6
x7
x8
…
 I1
pac.
 I2
pac.
 I3
kont.
 I4
pac.
 I5
kont.
 …
•proměnné
p-hodnoty:
Princip: Výběr statisticky významných proměnných pomocí dvouvýběrového t-testu či
Mannova-Whitneyova testu.
0,34
0,02
0,09
0,01
0,25
0,63
0,03
0,12

pro různé metody korekce různé výsledky

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Výběr oblastí mozku (ROI) podle atlasu
16
Nevýhody:
-  ne vždy dopředu víme, která z oblastí je vhodná pro odlišení skupin osob
-  některá onemocnění postihují celý mozek (např. schizofrenie)
Výhody:
+ anatomicky/funkčně relevantní – snadnější interpretace
+ zpravidla rychlé
http://3.bp.blogspot.com/-gLF3m9LiRYs/Upqso_CLPTI/AAAAAAAAAL4/r38QJzyFt6s/s1600/Hippocampus.jpg
Princip: Výběr oblastí mozku s využitím atlasu mozku podle expertní znalosti daného onemocnění
(tzn. výběr oblasti postižené danou nemocí).

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Algoritmy sekvenční selekce
•algoritmus sekvenční dopředné selekce:
–algoritmus začíná s prázdnou množinou, do které se vloží proměnná s nejlepší hodnotou selekčního
kritéria
–v každém následujícím kroku se přidá ta proměnná, která s dříve vybranými veličinami dosáhla
nejlepší hodnoty kritéria
•
17
•algoritmus sekvenční zpětné selekce:
–algoritmus začíná s množinou všech proměnných
–v každém následujícím kroku se eliminuje ta proměnná, která způsobuje nejmenší pokles kriteriální
funkce
-  dopředná selekce – nelze vyloučit ty veličiny, které se staly nadbytečné po
   přiřazení dalších veličin
-  zpětná selekce – neexistuje možnost opravy při neoptimálním vyloučení
   kterékoliv proměnné
+ dopředný algoritmus je výpočetně jednodušší, protože pracuje maximálně
    v n-rozměrném prostoru
+ zpětný algoritmus umožňuje průběžně sledovat množství ztracené informace
Výhody :
Nevýhody :
•algoritmus plus p mínus q:
–po přidání p veličin se q veličin odstraní;
–proces probíhá, dokud se nedosáhne požadovaného počtu příznaků

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Extrakce proměnných
•jednou z možných přístupů redukce dat
18
•transformace původních proměnných na menší počet jiných proměnných Þ tzn. hledání (optimálního)
zobrazení Z, které transformuje původní p-rozměrný prostor (obraz) na prostor (obraz) m-rozměrný (p
³ m)
•pro snadnější řešitelnost hledáme zobrazení Z v oboru lineárních zobrazení
•metody extrakce proměnných:
–analýza hlavních komponent (PCA)
–faktorová analýza (FA)
–analýza nezávislých komponent (ICA)
–korespondenční analýza (CA)
–vícerozměrné škálování (MDS)
–redundanční analýza (RDA)
–kanonická korelační analýza (CCorA)
–manifold learning metody (LLE, Isomap atd.)
–metoda parciálních nejmenších čtverců (PLS)
•
•metody extrakce proměnných často nazývány jako metody ordinační analýzy

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Ordinační analýza dat = pohled ze správného úhlu
•Vícerozměrná analýza nám pomáhá nalézt v x-dimenzionálním prostoru nejvhodnější pohled na data
poskytující maximum informací o analyzovaných objektech
19
Všechny obrázky ukazují stejný objekt z různých úhlů v 3D prostoru.

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Obecný princip redukce dimenzionality dat pomocí extrakce
•V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze se navzájem
vysvětlují a pro popis kompletní informace v datech není třeba všech dimenzí vstupního souboru
•Všechny tzv. ordinační metody využívají principu identifikace korelovaných dimenzí a jejich
sloučení do souhrnných nových dimenzí zastupujících několik dimenzí vstupního souboru
20
Jednoznačný vztah dimenzí x a y umožňuje jejich nahrazení jedinou novou dimenzí z
x
y
z
x
y
?
?
?
?
?
?
?
?
V případě neexistence vztahu mezi x a y nemá smysl definovat nové dimenze – nepřináší žádnou novou
informaci oproti x a y
•Pokud mezi dimenzemi vstupního souboru neexistují korelace, nemá smysl hledat zjednodušení
vícerozměrné struktury takovéhoto souboru !!!
•

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Korelace jako princip výpočtu vícerozměrných analýz
•Kovariance a Pearsonova korelace je základem analýzy hlavních komponent, faktorové analýzy i
dalších vícerozměrných analýz pracujících s lineární závislostí proměnných
•Předpokladem výpočtu kovariance a Pearsonovy korelace je:
–Normalita dat v obou dimenzích
–Linearita vztahu proměnných
•Pro vícerozměrné analýzy je nejzávažnějším problémem přítomnost odlehlých hodnot
21
x
y
x
y
x
y
Lineární vztah – bezproblémové použití Pearsonovy korelace
Korelace je dána 2 skupinami hodnot – vede k identifikaci skupin objektů v datech
Korelace je dána odlehlou hodnotu – analýza popisuje pouze vliv odlehlé hodnoty

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Typy ordinační analýzy
•Ordinačních analýz existuje celá řada, některé jsou spjaty s konkrétními metrikami
vzdáleností/podobností
•V přehledu jsou uvedeny pouze základní typy analýz, nikoliv jejich různé kombinace hodnotící
vztahy dvou a více sad proměnných (CCA, kanonická korelace, RDA, co-coordinate analysis, co-inertia
analysis, diskriminační analýza apod.)
22
Typ analýzy
Vstupní data
Metrika
Analýza hlavních komponent (PCA)
NxP matice
Korelace, kovariance, Euklidovská
Faktorová analýza (FA)
NxP matice
Korelace, kovariance, Euklidovská
Analýza nezávislých komponent (ICA)
NxP matice
Korelace, kovariance, Euklidovská
Korespondenční analýza (CA)
NxP matice
Chi-square vzdálenost
Analýza hlavních koordinát (PCoA)
Asoc. matice
libovolná
Nemetrické mnohorozměrné škálování (MDS)
Asoc. matice
libovolná

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent (PCA)
23

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent
•anglicky Principal Component Analysis (PCA)
•snaha redukovat počet proměnných nalezením nových latentních proměnných (hlavních komponent)
vysvětlujících co nejvíce variability původních proměnných
•nové proměnné (X1, X2) lineární kombinací původních proměnných (Y1, Y2)
•
•
24
•PCA
•x2
•x1
•
•
•
•
•
•
•
•
•
•x2
•x1
•
•
•
•
•
•
•
•
•
•y1
•y2
Nevýhody:
- nevyužívá informaci o příslušnosti subjektů do skupin
- potřebné určit, kolik hlavních komponent se použije pro transformaci
Výhody:
+ analýza na celém mozku
+ vícerozměrná metoda

3 parametry – tzn. tabulka se 3 sloupci – zobrazení ve 3-rozm. prostoru
více parametrů (příznak. proměnných) – nedokážeme si to představit
vytvoření nových proměnných
pamatují si, co je vstupem do PCA? Není to matice původních hodnot, ale...

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent – cíle
•Popis a vizualizace vztahů mezi proměnnými
•Výběr neredundantních proměnných pro další analýzy
•Vytvoření zástupných faktorových os  pro použití v dalších analýzách
•Identifikace shluků v datech spjatých s variabilitou dat
•Identifikace vícerozměrně odlehlých objektů
25

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent – předpoklady
•vstupem do analýzy datová matice n x p obsahující kvantitativní proměnné (s normálním rozdělením)
•předpoklady obdobné jako při výpočtu korelací a kovariancí:
–nepřítomnost odlehlých hodnot (s výjimkou situace, kdy analýzu provádíme za účelem identifikace
odlehlých hodnot)
–nepřítomnost více skupin objektů (s výjimkou situace, kdy analýzu provádíme za účelem detekce
přirozeně existujících shluků spjatých s největší variabilitou souboru)
•datový soubor by měl mít více objektů než proměnných, pro získání stabilních výsledků se
doporučuje alespoň 10x tolik objektů než proměnných, ideální je 40-60x více objektů než proměnných
•
26

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent – volba asociační matice
•autokorelační matice – data nejsou nijak upravena (zohledňována průměrná hodnota i rozptyl
původních dat)
•kovarianční (disperzní) matice – data centrována (od každé příznakové proměnné odečtena její
střední hodnota) – zohledňován rozptyl původních dat
•matice korelačních koeficientů – data standardizována (odečtení středních hodnot a podělení
směrodatnými odchylkami) – použití pokud mají proměnné různá měřítka
•
27
•každou úpravou původních dat ale přicházíme o určitou informaci !!!
•

-v případě kovarianční matice a matice korelačních koeficientů je střední kvadr. odchylka
minimální, pokud hlavní komponenty budou procházet ve směru největší variability
-vstupní matice různé, ale princip a způsob výpočtu Karhunenova-Loevova rozvoje zachován

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
28
Analýza hlavních komponent – volba asociační matice
x
y
autokorelační matice
(data nijak neupravována)
•s jakými daty PCA pracuje v případě použití různých asociačních matic:
původní data
x
y
matice korelačních koeficientů (odečten průměr a podělení SD)
kovarianční matice
(odečten průměr)
x
y
y
x
?
?
?
?
?
?
?
?
?
?
?
?

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Analýza hlavních komponent – postup
1.Volba asociační matice (autokorelační, kovarianční nebo kor. koeficientů)
29
2.Výpočet vlastních čísel a vlastních vektorů asociační matice:
–vlastní vektory definují směr nových faktorových os (hlavních komponent)
v prostoru
–vlastní čísla odrážejí variabilitu vysvětlenou příslušnou komponentou
3.Seřazení vlastních vektorů podle hodnot jim odpovídajících vlastních čísel (sestupně)
4.Výběr prvních m komponent vyčerpávajících nejvíce variability původních dat

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Identifikace optimálního počtu hlavních komponent pro další analýzu
•pokud je cílem ordinační analýzy vizualizace dat, snažíme se vybrat 2-3 komponenty
•pokud je cílem ordinační analýzy výběr menšího počtu dimenzí pro další analýzu, můžeme ponechat
více komponent (např. u analýzy obrazů MRI  je úspěchem redukce z milionu voxelů na desítky)
30
1.Kaiser Guttmanovo kritérium:
–pro další analýzu jsou vybrány osy s vlastním číslem >1 (při analýze matice korelačních
koeficientů) nebo větším než průměrná hodnota vlastních čísel (při analýze kovarianční matice)
–logika je vybírat osy, které přispívají k vysvětlení variability dat více, než připadá rovnoměrným
rozdělením variability
•kritéria pro výběr počtu komponent:
2.Sutinový graf (scree plot)
–grafický nástroj hledající zlom ve vztahu počtu os a vyčerpané variability
3.Sheppardův diagram
–grafická analýza vztahu mezi vzdálenostmi objektů v původním prostoru a redukovaném prostoru o
daném počtu dimenzí

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Sutinový graf (scree plot)
31
Zlom ve vztahu mezi počtem vlastních čísel a jimi vyčerpanou variabilitou – pro další analýzu
použity první dvě faktorové osy

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Sheppardův diagram
•Vztahuje vzdálenosti v prostoru původních proměnných ke vzdálenostem v prostoru vytvořeném PCA
•Je třeba brát ohled na typ PCA (korelace vs. kovariance)
•Obecná metoda určení optimálního počtu dimenzí v ordinační analýze (třeba respektovat použitou
asociační metriku)
32
Za optimální z hlediska zachování vzdáleností objektů lze považovat dvě nebo tři dimenze
Při použití všech dimenzí jsou vzdálenosti perfektně zachovány

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – geometrická interpretace
33
001.jpg
•X1
•X1
•X2
•X2
•v1
•v2
•y
•použití obou hlavních komponent
•použití 1. hlavní komponenty
•použití 2. hlavní komponenty
•x2
•x1
•X1
•X2
•v2
•y
•x2
•X1
•v1
•y
•x1
•X2

Přijdeme o méně informace, pokud použijeme 1. hlavní komponentu.

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – rozdělení do tříd
34
odečtení průměru každé skupiny zvlášť
odečtení celkového průměru
→ není vhodné
→ je vhodné

- centrování obrazů podle středních hodnot obrazů v jednotlivých třídách

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA a klasifikace I
•PCA  často nebývá vhodnou metodou redukce dat před klasifikací
35
x
y
1. hlavní komponenta
2. hlavní komponenta
Pro klasifikaci vhodnější  2. HK, přestože vyčerpává méně variability!

-proto se někdy dělá to, že po vytvoření komponent se vyberou pomocí dvouvýb. t-testu ty
komponenty, které dobře odlišují pacienty od kontrol. (tzn. je to extrakce + selekce)
-není vhodné vybírat prvních m komponent u klasifikace, protože pokud je diskriminující oblast malá
(má málo voxelů), tak se mezi prvních m komponent nedostane

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA a klasifikace II
•Když hlavní komponenta vyčerpává hodně variability, neznamená to, že musí rovněž dobře
klasifikovat
36
proměnná 1
vysoká korelace mezi proměnnými 1 a 2
- způsobená tím, že se skupiny od sebe hodně liší
vysoká korelace mezi proměnnými 1 a 2
- skupiny se ale od sebe neliší
→ v tomto případě obě proměnné budou korelovat s první hlavní komponentou a dokáží dobře
diskriminovat pacienty a kontroly
→ v tomto případě obě proměnné budou také korelovat s první hlavní komponentou, ale nedokáží
diskriminovat pacienty a kontroly
proměnná 1
pacient
kontrola

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – rozšiřující poznatky I
37
Výpočet PCA, když je počet proměnných mnohem větší než počet subjektů:
-1. způsob: iterativní postupný výpočet vlastních vektorů a vlastních čísel
-2. způsob: pPCA - výpočet vlastních vektorů vi „velké“ kovarianční matice (proměnných) XTX(p,p) z
vlastních vektorů wi  „malé“ kovarianční matice (subjektů) XXT(n,n) pomocí:

V1
V2
…
 S1
 S2
  …
•proměnné
•Datová matice:

V1
V2
…
 V1
 V2
  …
•1 923 207
x
1 923 207
•173 x 1 923 207
•Kovarianční
matice subjektů:
•proměnné
•Kovarianční
matice proměnných:
•173
x
173
•subjekty

S1
S2
…
 S1
 S2
  …

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – rozšiřující poznatky II
38
•Souvislost se singulárním rozkladem (SVD – Singular Value Decomposition):
•
-matice U a V jsou ortogonální a normované (ortonormální)
-matice U složena z vlastních (charakteristických) vektorů matice XXT(n,n)
-matice V z vlastních vektorů matice XTX(p,p)
-Matice Г je typu k x k a její diagonála je tvořena singulárními hodnotami, které jsou na hlavní
diagonále uspořádány podle klesající velikosti a které jsou rovny odmocninám vlastních čísel matice
XXT i XTX

proto lze v Matlabu počítat PCA pomocí funkce svd

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
PCA – příklad – řešení v Matlabu
•Zadání: Proveďte PCA na objemech 6 mozkových struktur u 833 subjektů.
•
39
•Řešení:
•
•
[num, txt, raw] = xlsread('Data_neuro.xlsx',1);
data = num(:,23:28); % vyber 6 promennych s objemy mozkovych struktur
[coeff,score,latent] = pca(data);
Výřez obrazovky Výřez obrazovky Výřez obrazovky
Matice vlastních vektorů
vlastní vektory jsou ve sloupcích (jsou seřazené podle vlastních čísel)
Souřadnice subjektů v novém prostoru
hlavní komponenty jsou ve sloupcích (jsou seřazené podle vlastních čísel);
v řádcích jsou subjekty
Vlastní čísla

-nejdůležitější je nápověda – je potřeba umět zvolit parametry funkce
-teď funkce PCA přímo v toolboxu Statistics
-defaultně pracuje na základě SVD, ne na výpočtu vlastních čísel a vlastních vektorů
-matici vlastních vektorů bychom mohli použít pak pro redukci testovacích dat
-nevím, jak bude funkce pca fungovat na matice, kde n<<p, ale pokud to počítá pomocí SVD a nastaví
se tam počet hl. komponent jako n-1, tak by to asi mohlo fungovat

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Principal Components and Classification Analysis: Data_neuro
40
PCA – příklad – řešení v softwaru Statistica I
•Zadání: Proveďte PCA na objemech 6 mozkových struktur u 833 subjektů.
•Řešení: Statistics – Multivariate Exploratory Techniques – Principal Components & Classification
Analysis
•
zvolit, zda se má počítat kovarianční či korelační matice
vybrat proměnné

bylo by vhodné přidat PCA i v Rku a SPSS
(https://statistics.laerd.com/spss-tutorials/principal-components-analysis-pca-using-spss-statistic
s.php)

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Výřez obrazovky
41
PCA – příklad – řešení v softwaru Statistica II
Principal Components and Classification Analysis Results: Data_neuro Výřez obrazovky Výřez
obrazovky
Souřadnice subjektů v novém prostoru
Matice vlastních vektorů
Vlastní čísla

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
42
PCA – příklad – řešení v softwaru Statistica III
Normalizace vlastních vektorů:
- zkopírovat do Excelu („Copy with headers“)
- použití vzorce: =B3/ODMOCNINA(SUMA.ČTVERCŮ(B$3:B$8))
Výřez obrazovky

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
43
PCA – příklad – řešení v softwaru Statistica IV
Záložka Variables:
Factor & variable correlations
Plot var. factor coordinates, 2D
Výřez obrazovky Výřez obrazovky
Z výsledků vyplývá, že:
-1. hlavní komponenta je nevíce korelovaná s objemem Nucleus caudatus
-2. hlavní komponenta je korelovaná s objemem hipokampu a také s objemem amygdaly a putamenu

-případně možno vykreslit i Scee plot
-když si vykreslíme korelační matici (na záložce Desriptives), vidíme, že proměnné jsou mezi sebou
velmi málo korelované, takže nemůžeme data až tak moc redukovat, jinak bychom ztratili mnoho
informace; je to patrné i z korelací s vlastními vektory – většinou jen jedna proměnná silně
korelovaná

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza (FA)
44

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza (FA)
•Anglicky: Factor Analysis
•Princip: Vytvoření nových proměnných (komponent, faktorů) z původních proměnných tak, aby zůstalo
zachováno co nejvíce kovariance.
•
45
https://tobeneo.files.wordpress.com/2014/06/rotation2.jpg
Nevýhoda oproti PCA:
- prostor pro subjektivní názor analytika při výběru rotace
Výhoda oproti PCA:
+ lepší interpretace nových proměnných
Stejný postup jako u PCA
+ 1 krok navíc – rotace komponent

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza
•faktorová analýza se snaží vysvětlit strukturu dat pomocí tzv. společných faktorů vysvětlujících
sadu původních proměnných
•cíle, předpoklady, vstupní data a většina výpočtů obdobná jako u analýzy hlavních komponent
•
46
•čím se principielně liší od analýzy hlavních komponent?
–Analýza hlavních komponent – vysvětlení maxima variability v datech
–Faktorová analýza – vysvětlení maxima kovariance mezi popisnými proměnnými
•čím se prakticky liší od analýzy hlavních komponent?
–Hlavním praktickým rozdílem je rotace proměnných tak, aby se vytvořené faktorové osy daly dobře
interpretovat
–Výhodou je lepší interpretace vztahu původních proměnných
–Nevýhodou je prostor pro subjektivní názor analytika daný výběrem rotace
•typy faktorové analýzy
–Vysvětlující (Explanatory) – snaží se identifikovat minimální počet faktorů pro vysvětlení dat
–Potvrzující (Confirmatory) – testuje hypotézy ohledně skryté struktury
v datech
•

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Společné faktory a základní možné rotace
47
Unikátní faktor
Pozorovaná proměnná
Společný faktor
u1
u2
u3
u4
u5
y1
y2
y3
y4
y5
f1
f2
Rotace ortogonální
- Nezávislé faktory
u1
u2
u3
u4
u5
y1
y2
y3
y4
y5
f1
f2
Rotace neortogonální
- Faktory jsou závislé za účelem zvýšení intepretovatelnosti

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza – postup výpočtu
1.extrakce prvotních faktorů z kovarianční matice (analogie vlastních vektorů v PCA)
–oproti PCA pracuje pouze s částí variability každé proměnné (tzv. communality), která je sdílena
společnými faktory
–několik možných algoritmů – principal factoring, metoda nejmenších čtverců, maximum likelihood
apod.
–výsledkem je komplexní struktura faktorů (obdobná PCA), kde řada faktorů má významné loadings
(vztahy) k původním proměnným, počet takových faktorů je tzv. komplexita faktorů
48
2.v druhém kroku je rotací dosaženo zjednodušení struktury faktorů, tj. vztah mezi společnými
faktory a původními proměnnými je zjednodušen (každá původní proměnná má hlavní vztah s jedním
faktorem nebo malým počtem faktorů)
–dva hlavní typy rotace:
‐ortogonální – faktory nemohou být korelovány, jsou tedy zcela nezávislé
‐neortogonální – faktory mohou být korelovány, nejsou tedy zcela nezávislé; vzhledem ke korelacím
obtížnější interpretace

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Faktorová analýza - rotace
•Ortogonální rotace
–Quartimax – minimalizuje sumu čtverců loadings původních proměnných na faktorových osách, tedy
zjednodušuje řádky matice loadings (=každá původní proměnná má největší loadings na jedné faktorové
ose)
–Varimax – zjednodušuje sloupce matice loadings
–Equimax – zjednodušuje řádky i sloupce matice loadings
–Biquartimax – varianta equimax
49
•Neortogonální rotace
–Oblimax
–Quartimin
–Oblimin
–Covarimin
–Biquartimin
–Atd.

-stálo by za to vyzkoušet, jestli FA bez rotace dá úplně stejné výsledky jako PCA (je ale potřeba
spočítat PCA s korelační maticí)

logo-MU logo-IBA
Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách
Poděkování
Příprava výukových materiálů předmětu
„DSAN02 Pokročilé metody analýzy dat v neurovědách“
byla finančně podporována prostředky projektu FRMU
č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat
v neurovědách jako nový předmět na LF MU“
50