Přednáška č. 3: Faktorová analýza


Osnova

Motivace

Formulace modelu faktorové analýzy

Vhodnost použití modelu faktorové analýzy

Odhad faktorové matice a její rotace

Volba počtu společných faktorů

Odhad faktorového skóre

Informace o testu studijních předpokladů

Výsledky faktorové analýzy a jejich psychologická interpretace

Závěr

Upozornění: Přednáška vychází z článku:

Budíková, Marie - Koutková, Helena - Dan, Jiří. Faktorová analýza testu studijních předpokladů na
Masarykově univerzitě. In 6th International Conference Aplimat. Bratislava 2007.


Motivace: Za zakladatele faktorové analýzy je považován britský psycholog Ch. E. Spearman, o její
další rozvoj se pak zasloužil americký psycholog L. L. Thurstone.


Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik


Louis Leon Thurstone (1887 – 1955): Americký psycholog, jeden ze zakladatelů psychometrie

Faktorová analýza se původně používala jen v psychologii, s rozvojem výpočetní techniky však
postupně pronikla i do dalších oborů.


Faktorová analýza má podobné cíle jako analýza hlavních komponent. Vycházíme opět z p-rozměrného
datového souboru . Např. předpokládáme, že každá z n osob je podrobena p různým testům. Výsledek,
kterého i-tá osoba dosáhla v j-tém testu, ozn. y[ij].  (Toto číslo se nazývá skór.) Předpokládáme,
že výsledky testů lze vysvětlit pomocí určitého, nepříliš velkého počtu faktorů. Tyto faktory
odpovídají nějakým lidským schopnostem, jako je např. paměť, schopnost soustředění, vytrvalost,
nadání apod. Tyto faktory však nemůžeme přímo měřit.

Základní princip faktorové analýzy spočívá v tom, že každá z pozorovaných náhodných veličin Y[j] (j
= 1, …, p) může být vyjádřena jako součet lineární kombinace menšího počtu m nepozorovatelných
(hypotetických) náhodných veličin F[1], …, F[m] - tzv. společných faktorů a dalšího zdroje
variability E[j] (j = 1, …, p) - tzv. specifické (reziduální) složky.

Faktorová analýza má tři cíle:

a)     Analyzovat korelace většího počtu proměnných tím, že se více proměnných seskupí tak, aby
většina proměnných v jednom shluku spolu silně korelovala, zatímco proměnné z různých shluků spolu
nekorelují buď vůbec nebo jen velmi slabě.

b)    Interpretovat faktory podle toho, jaké proměnné obsahuje příslušný shluk.

c)     Shrnout variabilitu proměnných pomocí několika málo faktorů

Faktorová analýza musí zodpovědět čtyři otázky:

a)     Kolik různých faktorů je zapotřebí k vysvětlení závislostí mezi proměnnými (tj. ke kvalitní
reprodukci korelační matice)?

b)    V jakém vztahu jsou faktory k jednotlivým proměnným?

c)     Jak dobře faktory vysvětlují původní proměnné?

d)    Jakou část jedinečné variability a jakou část náhodné variability obsahují původní proměnné?


Formulace modelu faktorové analýzy

Přepokládáme, že pro náhodný vektor Y = (Y[1], …, Y[p] )´ platí model

                                            Y = ΛF + E

kde  F = (F[1], …, F[m] )´,  E = (E[1], …, E[p] )´  a  Λ = ( ) je neznámá reálná matice typu p x m.
Matice Λ se nazývá faktorová matice. E[j] je náhodná odchylka od přesného modelu příslušná k  j-té
veličině, j = 1,…, p. Prvek   faktorové matice je faktorová váha (zátěž) k-tého společného faktoru
příslušná k j-té veličině, k = 1, …, m.

Předpokládáme, že složky náhodného vektoru Y jsou standardizované, čímž je eliminován vliv
jednotek. Dále předpokládáme, že

náhodné vektory F a E mají nulové vektory středních hodnot,

náhodné vektory F a E jsou nekorelované,

var(E) =  (tj. náhodné odchylky jsou nekorelované),

var(F) = I, kde I je jednotková matice řádu m (tj. faktory jsou nekorelované a mají jednotkové
rozptyly).

V tomto případě hovoříme o ortogonálním faktorovém modelu.

Číslo u[j]^2 se nazývá specifický rozptyl (unicita) j-té veličiny a číslo h[j]^2 = 1 -  u[j]^2 se
nazývá komunalita j-té veličiny,  j = 1, …, p.

Vzhledem k předpokladům o ortogonálním faktorovém modelu platí:


                             Λ Λ' = cor(Y) – var(E) = var(Y) – var(E)

Matice Λ Λ' se nazývá redukovaná korelační matice. Tato matice je až na hlavní diagonálu shodná
s maticí cor(Y). Její diagonální prvky jsou komunality h[j]^2 veličiny Y[j], j = 1, …, p, přičemž
. Komunalita h[j]^2 veličiny Y[j] udává část rozptylu veličiny Y[j], která je vysvětlena působením
společných faktorů, z čehož na k-tý faktor F[k]  připadá  .


Vhodnost použití modelu faktorové analýzy

K posouzení, zda vůbec má smysl provádět faktorovou analýzu (tj. zda korelace mezi veličinami Y[1],
…, Y[p] jsou vysvětlitelné pomocí jiných veličin F[1], …, F[m]) slouží Kaiserova – Meierova –
Olkinova statistika (KMO statistika), která je založena na výběrových korelačních a parciálních
korelačních koeficientech veličin Y[1], …, Y[p]. KMO nabývá hodnot mezi 0 a 1. Pro posouzení, zda
má smysl provést faktorovou analýzu, můžeme použít následující tabulku:


                              KMO statistika

                                            použití faktorové analýzy

                              0,90 – 1,00

                                            vynikající

                              0,80 – 0,89

                                            chvályhodné

                              0,70 – 0,79

                                            středně užitečné

                              0,60 – 0,69

                                            průměrné

                              0,50 – 0,59

                                            špatné

                              0,00 – 0,49

                                            nepřijatelné


Vedle KMO statistiky můžeme rovněž použít Bartlettův test sféricity, kde nulová hypotéza tvrdí, že
výběrová korelační matice je matice jednotková. Testová statistika je dána vzorcem

                                                 .

Platí-li nulová hypotéza, testová statistika se asymptoticky řídí rozložením . Nulovou hypotézu
tedy zamítáme na asymptotické hladině významnosti α, když . Nezamítneme-li nulovou hypotézu, neměli
bychom faktorovou analýzu vůbec provádět.


Odhad faktorové matice a její rotace

Je-li formulován faktorový model, je zapotřebí pro daný počet faktorů m odhadnout faktorovou matici
Λ. Z celé řady metod odhadu Λ zde naznačíme modifikovanou metodu hlavních komponent, která spočívá
v aplikaci metody hlavních komponent na odhad redukované korelační matice ΛΛ'. Faktory jsou
vybírány tak, aby vysvětlily co největší část celkového rozptylu D(Y[1]) + … + D(Y[p]) = p veličin
Y[1], …, Y[p]. Odhad matice Λ se pak provádí iteračním postupem:

Za počáteční odhad T[0 ]matice ΛΛ' volíme realizaci výběrové korelační matice R vektoru Y, tj. za
počáteční odhad komunalit h[j]^2 volíme jedničky.

Stanovíme m největších vlastních čísel l[1,0] ≥ …≥  l[m,0]^ a jim odpovídajících jednotkových
vlastních vektorů v[1,0], …, v[m,0] matice T[0]. Za odhad  matice Λ pak volíme matici

= (v[1,0] ,…,v[m,0] ). Prvky hlavní diagonály matice  jsou nové odhady komunalit, které v dalším
kroku iteračního postupu dosadíme na diagonálu realizace matice R, čímž zpřesníme odhad redukované
korelační matice.

Přistoupíme k novému výpočtu vlastních čísel a vlastních vektorů.

Iterační postup zastavíme, pokud euklidovská norma rozdílu dvou po sobě následujících odhadů
komunalit klesne pod předem zvolené malé kladné číslo, např. 0,001. Odhad =( ) faktorové matice Λ=(
) pak vyjádříme ve tvaru

                                              = (v[1] , …, v[m] )

kde l[1], …, l[m] jsou vlastní čísla redukované korelační matice získané v posledním kroku
iteračního postupu seřazená sestupně a v[1], …, v[m] jsou jim odpovídající jednotkové vlastní
vektory. Potom

·         je odhad R(Y[j], F[k]),

·         je odhad příspěvku k-tého společného faktoru k rozptylu veličiny Y[j],

·        součet čtverců prvků v j-tém řádku matice  je odhad komunality h[j]^2, tj. odhaduje tu
část rozptylu veličiny Y[j], kterou lze vysvětlit působením společných faktorů,

·        součet čtverců prvků v k-tém sloupci matice  je roven vlastnímu číslu l[k] matice  a
odhaduje příspěvek k-tého faktoru  k celkovému rozptylu p. To znamená, že k-tý faktor vyčerpává
celkového rozptylu, z čehož na j-tou veličinu připadá .

Je-li počet faktorů m > 1 a současně m < p, není faktorová matice Λ vztahem Λ Λ' = cor(Y) – var(E)
určena jednoznačně. Splňuje–li matice U řádu m podmínku UU' = I, pak matice Λ^* = ΛU rovněž tomuto
vztahu vyhovuje. Říkáme, že matice Λ^* se získala rotací matice Λ a nazýváme ji rotovanou
faktorovou maticí.  Jelikož odhadnuté faktorové váhy musí být snadno interpretovatelné, je cílem
rotace získat co nejpřesvědčivější interpretaci faktorů. Požadujeme, aby každá z veličin Y[1], …,
Y[p] měla vysoké faktorové váhy u co nejmenšího počtu faktorů a nízké či středně vysoké váhy u
zbývajících faktorů. Existuje několik metod rotace, často používaná je metoda varimax. Odhady
faktorových vah  příslušné k j-té veličině chápeme nyní jako souřadnice bodu v R^m. Hlavní myšlenka
této metody spočívá v tom, že se provádí transformace souřadných os v R^m, dokud souřadnice  každé
náhodné veličiny Y[j] nejsou blízké buď 0 nebo ±1.


Volba počtu společných faktorů

Zbývá se vrátit k problematice volby počtu m společných faktorů F[1], …, F[m]. V explorativní
faktorové analýze nemusíme mít o tomto počtu jasnou představu. Existují různá doporučení, jak m
zvolit. Pokud nelze přepokládat p-rozměrné normální rozložení náhodného vektoru Y, nemůžeme pro
volbu m použít běžné statistické testy. Můžeme se ale opřít o několik různých kritérií:

·     Kaiserovo kritérium - za m volíme počet těch vlastních čísel matice R, která jsou větší než
1.

·     Sutinový test (scree test) – grafická metoda, která spočívá v subjektivním posouzení vzhledu
sutinového grafu (scree plot), tj. grafu znázorňujícího velikosti sestupně uspořádaných vlastních
čísel matice R. Objeví-li se v grafu určité zploštění, pak za m vezmeme to pořadové číslo, kde se
zploštění projevilo.

·     Kritérium založené na součtu  prvních m největších vlastních čísel matice R – požadujeme, aby
tento součet byl „přibližně“ p, tj. aby byl podíl celkového rozptylu pozorovaných veličin
dostatečně vysvětlen příslušným faktorovým modelem.

·     Kritérium založené na reziduální korelační matici po extrakci m společných faktorů, tj.
matici R - . Požadujeme, aby všechny reziduální korelace (tj. mimodiagonální prvky reziduální
korelační matice) byly „malé“, např. v absolutní hodnotě menší než 0,1. Pak m faktorů vysvětluje
korelační matici pozorovaného vektoru dobře.


Odhad faktorového skóre

Faktorovou analýzu je vhodné doplnit o odhady hodnot faktorů F[1], …, F[m] u jednotlivých
výběrových objektů, které tyto objekty charakterizují – tzv. odhad faktorového skóre. Můžeme např.
použít regresní metodu, kdy hledáme lineární regresní odhad  veličiny  založený na vektoru Y. Lze
ukázat, že


kde a  se prakticky nahradí odhadem . Označme dále y[i] = (y[i1],…,y[ip])' standardizovaný vektor
pozorování  vztahující se k  i-tému objektu (i = 1,…, n). Potom pro vektor  odhadů faktorových
skóre m společných faktorů dostáváme


Informace o testu studijních předpokladů

Od roku 2002 se na některých fakultách MU v Brně používá v přijímacím řízení test studijních
předpokladů (dále jen TSP). Tento test zkoumá předpoklady uchazeče úspěšně studovat na MU. Je
tvořen 80 otázkami, které mají podobu tzv. položek nucené volby. Ke každé z nich existuje jedna
správná odpověď a čtyři chybné odpovědi, tzv. distraktory. Na řešení celého testu má uchazeč 80
minut. Počet správných odpovědí nabývá hodnot od 0 do 80. Položky jsou dle obsahu seřazeny do 8
subtestů po 10 položkách. Každý subtest je zaměřen na jinou oblast lidského myšlení. Zjišťuje se
úroveň myšlení verbálního, numerického, symbolického, analytického, kritického a vědeckého. Položky
jednoho ze subtestů slouží k posouzení prostorové představivosti, dalšího pak k ověření schopnosti
usuzování.

Cílem faktorové analýzy je prozkoumat korelační strukturu vztahů mezi proměnnými, které obsahují
počty správných odpovědí v jednotlivých subtestech a případně zvážit možnou redukci počtu subtestů.

Datový soubor obsahuje údaje o 2619 uchazečích o studium na Přírodovědecké fakultě MU v Brně v roce
2005, z toho je 1026 mužů, 1593 žen.

Pozorované náhodné veličiny jsou:

SBT1 – počet správných odpovědí v subtestu prostorová představivost,

SBT2 - počet správných odpovědí v subtestu symbolické myšlení,

SBT3 - počet správných odpovědí v subtestu verbální myšlení,

SBT4 - počet správných odpovědí v subtestu kritické myšlení,

SBT5 - počet správných odpovědí v subtestu numerické myšlení,

SBT6 - počet správných odpovědí v subtestu kulturní přehled,

SBT7 - počet správných odpovědí v subtestu úsudky,

SBT8 - počet správných odpovědí v subtestu analytické myšlení.


Výsledky faktorové analýzy a jejich psychologická interpretace

Při výpočtech byly použity statistické programové systémy SPSS a STATISTICA. Prvotní informace o
korelační struktuře datového souboru získáme z realizace výběrové korelační matice uvažovaných osmi
proměnných. Tu získáme např. takto: Statistiky – Vícerozměrné průzkumné techniky – Faktorová
analýza – Proměnné SBT1 až SBT8 – OK – OK. Na záložce Popisné statistiky zvolíme Přehled korelací,
průměrů, směrodatných odchylek – Korelace.


Vidíme, že korelace kolísají od 0,14 až po 0,37. Všechny korelace jsou poměrně nízké, i když
některé jsou statisticky významné na hladině významnosti 0,05. Nad 0,3 (hranice pro středně silnou
korelaci) jsou 4 korelační koeficienty. V korelační matici jsou tedy jakási 4 „těžiště“, můžeme
tudíž očekávat, že k vysvětlení její struktury budeme potřebovat 4 faktory.

Pro posouzení, zda má vůbec smysl provádět faktorovou analýzu, použijeme KMO statistiku a provedeme
Bartlettův test. Provedení testu v systému SPSS:
Analyze – Data Reduction – Factor - Variables sbt1 až sbt8 – Descriptives – zaškrtneme KMO and
Bartlett’s test of sphericity.


Hodnota KMO statistiky je 0,81, tedy provedení faktorové analýzy se jeví jako chvályhodné. Testová
statistka Bartlettova testu sféricity nabývá hodnoty 2851,19, počet stupňů volnosti je 28,
odpovídající p-hodnota je velmi blízká 0, tedy hypotézu, že realizace výběrové korelační matice 8
uvažovaných proměnných je jednotková, zamítáme na asymptotické hladině významnosti 0,05.


Podívejme se nejprve na vlastní čísla realizované výběrové korelační matice  R a na procento
vysvětleného rozptylu:

Na záložce Základní nastavení změníme Max. počet faktorů na 8 a Min. vlastní číslo na 0,1 – OK – na
záložce Výklad rozptylu zvolíme Vlastní čísla.


První faktor tedy vysvětluje 33,75% variability obsažené v osmi sledovaných proměnných, druhý
13,46% atd.

Vykreslíme sutinový graf:

Na záložce Výklad rozptylu zvolíme Sutinový graf.


Počet m společných faktorů zvolíme čtyři na základě sutinového grafu a na základě vysvětleného
rozptylu, i když jsou pouze dvě vlastní čísla realizace matice R větší než 1. Celkové procento
variability vysvětlené prvními čtyřmi faktory je 67,67%.


Pro extrakci faktorů zvolíme metodu hlavních komponent. Rotaci faktorů provedeme metodou varimax.
Zajímají nás odhady komunalit.

Na zálože Základní nastavení zvolíme Max. počet faktorů 4 – OK. Na záložce Zákl. výsledky zvolíme
Rotace faktorů Varimax prostý. Na záložce Výklad rozptylu zvolíme Komunality.


Např. odhad komunality proměnné SBT1 je 0,778, což lze interpretovat tak, že 77,8% variability
proměnné SBT1 lze vysvětlit působením čtyř  společných faktorů.


Nyní získáme odhad matice rotovaných faktorových  zátěží: na záložce Zátěže zvolíme Shrnutí:
Faktorové zátěže


Vidíme, že první faktor má vysoké korelace s proměnnými SBT2 a SBT3. Druhý faktor vysoce koreluje
s proměnnými SBT4 a SBT6. U třetího faktoru pozorujeme vysoké korelace se SBT7 a SBT8. Čtvrtý
faktor má vysoké korelace se SBT1 a SBT5. Po rotaci připadá na první faktor 1,172 celkového
rozptylu, což je 14,7%. Na druhý faktor připadá 1,424 celkového rozptylu, tj. 17,8% atd.

Interpretace faktorů:

1. faktor … založen na symbolickém a verbálním myšlení

(Symbolické myšlení je založeno na operacích se symboly. Symbolem se rozumíme slovní, číselné nebo
obrazné vyjádření určitého objektu nebo jevu.

Verbální myšlení je schopnost pochopit strukturu a zákonitosti výstavby jazyka jako celku a
využívat ho při komunikaci s jinými členy dané jazykové skupiny).

2. faktor … založen na kritickém myšlení a kulturním přehledu.

(Kritické myšlení je schopnost posoudit správnost tvrzení a závěrů týkajících se poznatků obecné
vzdělanosti.

Kulturní přehled je schopnost orientovat se v historických, politických a kulturních reáliích.)

3. faktor … založen na úsudcích a analytickém myšlení.

(Úsudek je schopnost vyvozování logických závěrů na základě daných faktů.

Analytické myšlení je schopnost myšlenkově rozkládat struktury na jejich konstitutivní prvky,
schopnost vyvozovat logické spojitosti, schopnost nacházet strukturu  ve zdánlivě chaotickém
informačním poli, a to na základě faktů.)

4. faktor … založen na prostorové představivosti a numerickém myšlení.

(Prostorová představivost je schopnost myšlenkové orientace v prostoru.

Numerické myšlení je založeno na numerické představivosti, která se opírá zejména o schopnost
vybavit si strukturu uspořádání množiny reálných čísel. Je to schopnost nacházet zákonitosti ve
skupinách čísel.)


Kvalitu získaného faktorového modelu posoudíme též pomocí odhadnuté korelační a   reziduální
korelační matice. Na záložce Výklad rozptylu vybereme Reprod./rezid. korelace.


Rezidua jsou vcelku malá, kolísají od –0,29 po 0,09. Osm z nich (tj. 29%) je v absolutní hodnotě
větší než 0,1.

Pro několik prvních uchazečů uvedeme ještě odhad faktorového skóre. Na záložce Skóre vybereme
Faktorová skóre.


Na odhady faktorových skóre pro daný objekt můžeme pohlížet jako na souřadnice tohoto objektu
v m-rozměrném prostoru. Spojnicový graf pro první tři uchazeče získáme takto: v pracovním sešitě
v tabulce faktorových skóre vezmeme do bloku faktorová skóre prvních tří uchazečů. Klikneme pravým
tlačítkem myši – Grafy bloku dat – Vlastní graf bloku podle sloupce – Spojnicocé grafy (Profily
případů) – OK.


Vidíme, že první uchazeč má vysoké skóre u třetího faktoru a naopak velmi nízké u prvního faktoru.
Druhý uchazeč se vyznačuje vysokým skóre u prvního faktoru a velmi nízkým u druhého faktoru. Třetí
uchazeč má vcelku vyrovnaná skóre u všech čtyř faktorů.


Řešení v systému SPSS:

Získání korelační matice: Analyze – Correlate – Bivariate – Variables sbt1 až sbt8 – OK

Získání KMO statistiky a provedení Bartlettova testu: Analyze – Data Reduction – Factor - Variables
sbt1 až sbt8 – Descriptives – zaškrtneme KMO and Bartlett’s test of sphericity.

Vlastní čísla realizované výběrové korelační matice  R, procento vysvětleného rozptylu: Analyze –
Data Reduction – Factor - Variables sbt1 až sbt8 – Extraction – změníme Eigenvalues over 0 –
Continue – OK.


Zvolíme 4 faktory, které vysvětlují 67,7% variability dat. Na záložce Extraction změníme Number of
factor na 4.

Rotace faktorů, odhad komunalit, odhad matice rotovaných faktorových  zátěží:: na záložce Rotation
zvolíme Method Varimax – Continue – OK.


Výpočet odhadnuté korelační a   reziduální korelační matice: na záložce Descriptives zaškrtneme
Reproduced.


Závěr

Posoudíme kvalitu faktorového modelu z několika různých hledisek:

·        KMO statistika  je 0,81 (provedení faktorové analýzy se jeví jako chvályhodné).

·        Testová statistika Bartlettova testu sféricity je 2851,19, počet stupňů volnosti je 28,
p-hodnota velmi blízká 0 (korelační matice sledovaných 8 proměnných je s rizikem omylu nejvýše 5%
různá od jednotkové matice).

·        Odhad modelu založený na modifikované metodě hlavních komponent vysvětluje 67,67%
variability obsažené v datovém souboru.

·        Komunality (tj. podíly variability jednotlivých proměnných vysvětlené působením čtyř
společných faktorů) kolísají od 56,3% u proměnné STB8 až po 84,7% u proměnné STB2.

·        Reziduální korelační matice má malé prvky, osm z nich jsou v absolutní hodnotě větší než
0,1.

Zhodnotíme nalezené společné faktory:

Metoda hlavních komponent nalezla čtyři společné faktory stojící v pozadí osmi sledovaných
proměnných. Všechny faktory jsou velmi dobře určeny lineárními kombinacemi vždy dvou proměnných.


Literatura


[1] Anděl, J.:  Matematická statistika. SNTL/ALFA Praha, 1978.

[2] Hebák, P., Hustopecký, J.: Vícerozměrné statistické metody s aplikacemi. SNTL/Alfa, Praha 1987.

[3] Johnson, R. A., Wichern, D. W.: Applied Multivariate Statistical Analysis. Prentice Hall
International, Inc. 1992.

[4] McDonald, R. P.: Faktorová analýza a příbuzné metody v psychologii. Academia Praha, 1991.

[5] SPSS/PC+ Statistics^TM 4.0. SPSS Inc. 1990.

[6] STATISTICA for Windows. StatSoft, Inc. 2000.