Lekce 11 Explorační Faktorová analýza Ladislav Rabušic Faktorová analýza (FA) ve své explorační verzi (viz níže) je technika, která se odlišuje od dosud probraných postupů analýzy. Není primárně určena k meritorní analýze, to je neslouží k testování hypotéz ani k měření souvislostí mezi nezávisle a závisle proměnnou. Jejím cílem je především redukce dat - umí to, že z mnoha položek vybere ty, které statisticky "patří k sobě", vybere ty, z nichž je možné vytvořit novou proměnnou. Techniky faktorové analýzy je možné rozdělit do dvou skupin: (1) faktorová analýza explorační (Exploratory factor analysis), která je určena především pro konstrukci škál - používá se tudíž v počátečních fázích výzkumu; (2) faktorová analýza konfirmační (Confirmatory factor analysis), která se již používá k meritorní analýze -- k ověření specificky formulovaných hypotéz. Tato procedura je poměrně složitá a nebudeme zde o ní pojednávat. Explorační faktorová analýza je technika, s jejíž pomocí se snažíme nahradit vztahy mezi sadou vzájemně spjatých proměnných malým počtem ne přímo pozorovatelných znaků, faktorů (viz obr. 11.1). Tím je dána také její primární funkce -- redukce dat, redukce proměnných. Poté, kdy faktor objevíme a pojmenujeme, můžeme z něj vytvořit novou proměnnou, kterou používáme v další analýze namísto původních položek. Komentovaný příklad nám nejlépe ukáže její smysl. Obr. 11.1: Model vztahu mezi položkami a faktorem Položka 1 Položka 2 Faktor Položka 3 Položka 4 Výzkum EVS 1999 zjišťoval, jaké jsou postoje respondenta k různým skutečnostem v oblasti ekonomické a sociálně politické. Baterie položek měla následující podobu (viz níže), měřicí stupnice měla deset stupňů, takže jednotlivé položky je možné považovat za kvazi intervalové proměnné, které jsou vhodné pro FA: Teď bych byl(a) rád(a), kdybyste mi mohl(a) říci své názory na různá témata. Kam byste svůj názor umístil(a) na takovéto škále? +--------------------------------------------------------------------------------------------+ | 1 | 2 | 3 | 4 |5|6|7| 8 | 9 | 10 | |---------------------------------------------------+-+-+-+----------------------------------| |A) Jednotlivci by měli převzít více odpovědnosti,| | | | | Stát by měl převzít více| |aby se o sebe dokázali postarat | | | | | odpovědnosti a zajistit, aby bylo| | | | | | | o každého postaráno| |---------------------------------------------------+-+-+-+----------------------------------| |B) Nezaměstnaní, by měli mít povinnost přijmout | | | | Nezaměstnaní by měli mít právo| |jakoukoli práci, která je k dispozici, nebo ztratit| | | | odmítnout zaměstnání, které| |podporu v nezaměstnanosti | | | | nechtějí vykonávat| |---------------------------------------------------+-+-+-+----------------------------------| |C) Konkurence je prospěšná. Podněcuje k usilovné | | | | Konkurence je škodlivá. Vyvolává| |práci a k tvorbě nových myšlenek | | | | v lidech to nejhorší| |---------------------------------------------------+-+-+-+----------------------------------| |D) Stát by měl dát firmám větší svobodu. | | | | | Stát by měl na firmy účinněji| | | | | | | dohlížet.| |----------------------------------------------+----+-+-+-+----------------------------------| |E) Příjmy by měly být vyrovnanější | | | | | Mělo by se více podnítit úsilí| | | | | | | jednotlivce| |----------------------------------------------+----+-+-+-+----------------------------------| |F) Soukromé vlastnictví obchodu a průmyslu by | | | | | Státní vlastnictví obchodu by se| |mělo vzrůst | | | | | mělo v co nejširší míře zachovat| |----------------------------------------------+----+-+-+-+----------------------------------| |G) Každý člověk by měl být zodpovědný za své | | | | | Stát by měl být zodpovědný za| |vlastní důchodové zabezpečení | | | | |důchodové zabezpečení všech občanů| |----------------------------------------------+----+-+-+-+----------------------------------| |H) Každý člověk by měl být zodpovědný za | | | | | Stát by měl být zodpovědný za| |zajištění svého vlastního bydlení | | | | | zajištění bydlení pro všechny| | | | | | | občany| |----------------------------------------------+----+-+-+-+----------------------------------| +--------------------------------------------------------------------------------------------+ Je možné se domnívat, že tyto položky jsou zřejmě určitým způsobem vzájemně spjaty a že by mohly v sobě skrývat latentní proměnnou, faktor paternalistického nebo liberálního postoje. Cílem úlohy je tedy zjistit, zdali je možné tyto položky redukovat do několika málo faktorů (jednoho až tří) a z nich pak vytvořit nové proměnné. Použijeme k tomu faktorovou analýzy, konkrétně metodu hlavních komponent (Principal components analysis). Provedení faktorové analýzy se děje ve třech krocích. (1) Musíme rozhodnout, zdali naše data jsou vhodná pro faktorovou analýzu; (2) musíme se rozhodnout, s jakým počtem faktorů budeme pracovat; (3) musíme vypočítat faktorové zátěže a jednotlivé faktory pojmenovat. Ad 1. Nejdříve musíme zjistit, zdali položky, které chceme faktorovat, jsou pro FA vůbec vhodné Proměnné, které vstupují do FA, musí být měřeny přinejmenším na ordinální úrovni a měly by mít delší stupnice. Dichotomické proměnné jsou pro aplikaci FA nevhodné. Proměnné by navíc mezi sebou neměly být příčinně vztaženy. Položky musí mezi sebou korelovat takovým způsobem, že těsnost korelace by měla být vyšší než 0,3. Zatímco první dvě podmínky můžeme odhalit pouhou úvahou nad povahou dat -- v našem případě není ani jedna z podmínek porušena -- těsnost korelace si musíme nechat samozřejmě spočítat. Vzájemné korelace mezi proměnnými ukáže matice interkorelací (viz tab. 11.1), kterou dostaneme již jako první část výstupu po zadání faktorové analýzy: Analyze -- Data reduction -- Factor (vepište příslušné proměnné) -- Descriptives (viz obr. 11.2 -- OK Obr. 11.2: Zadání výpočtu faktorové analýzy Výstup z Descriptives přinese především matici interkorelací (viz tab. 11. 1). Vidíme v ní, že některé korelace nejsou příliš vysoké (jsou vysvíceny žlutě). Dále přinese tzv. anti-image matici (viz tab. 11.2), v níž v její dolní polovině jsou na diagonále (vysvíceny žlutě) uvedeny hodnoty Kaiser-Meyer-Olkinovy míry (KMO míra) vhodnosti položek pro faktorovou analýzu. Tato míra by měla být vyšší než 0,6, vhodnější ale je, pokud dosahuje hodnoty 0,7 a více. Hodnoty KMO jsou v našem případě u všech položek dobré. Konečně výstup z tohoto zadání přinese také celkovou hodnotu KMO (pro všechny položky a také Bartlettův test (viz tab. 11.3). Oba tyto údaje nám pomohou dále zhodnotit, zdali naše položky, které chceme faktorovat, jsou pro FA vůbec vhodné. Tab. 12.1: Matice interkorelací zkoumaných položek Tab. 12.2: Anti-image matice Tab. 12.3: Míry KMO a Bartlettův test KMO by měla být vyšší než 0,7 (což je) a signifikance Bartlettova tesu by měla být významná minimálně na úrovni 0,05 (což je). Nulová hypotéza u Bartlettova testu je, že proměnné na sobě v základním souboru nezávisejí. Zdá se tedy, byť ne všechny korelační vztahy jsou na požadované úrovni těsnosti, že naše data jsou pro FA vhodná. Můžeme tedy přistoupit k druhému kroku FA, a tou je extrakce faktorů Ad 2. Extrakce faktorů Pro nalezení faktorů (ve statistické literatuře se tomu kroku říká "extrakce") existují různé možnosti, velmi častým postupem je již dříve zmíněná tzv. metoda hlavních komponent. Nejdříve se musíme rozhodnout, s kolika faktory chceme vlastně pracovat -- to zjistíme právě na základě postupu, s nímž jednotlivé faktory (komponenty) analyzované baterie položek vyextrahujeme. Extrakci faktorů provedeme tak, že klikneme na tlačítko Extraction. Obr. 12.3: V něm pak zadáme operace, které nám napoví, s kolika faktory máme pracovat. Předně to je výpočet tzv. eigen hodnoty (eigenvalue) a dále sestrojení Cattelova suťového grafu (Sree plot): Na základě výpočtu eigenvalues a jejich grafu (Scree plot) se pak rozhodneme, s kolika faktory budeme pracovat. Pro toto rozhodnutí platí dva návody, které ne vždy dávají stejné výsledky: (1) volíme takový počet faktorů (komponent), které mají hodnotu eigenvalue vyšší než 1. To je Kaiserovo pravidlo; (2) volíme takový počet faktorů, které v grafu (Scree plot) jsou nad prolomením křivky. Ukažme si to. Tab. 11.4: Hodnoty eigenvalue Vidíme (v tab. 11.4), že pouze u dvou komponent jsou hodnoty eigenvalues větší než 1. První komponenta (faktor) vyčerpává 36 % variance v položkách, druhá komponenta vyčerpává 13 % variance, oba faktory dohromady pak 50 %. Samozřejmě, čím více variance je vysvětleno, tím lépe můžeme redukovat původní položky. Graf vypadá následovně: Podle tohoto obrázku bychom měli extrahovat pouze jeden faktor, neboť u druhého se křivka zřetelně láme - a pravidlo říká, že máme vzít takový počet faktorů, který je nad zlomem křivky. Jelikož ale víme, že jeden faktor vyčerpává pouze 36 % variance, rozhodneme se v tomto případě pro dvoufaktorové řešení. Ad 3. Pojmenování faktorů Nyní již tedy zbývá poslední krok - zjistit, které položky spadají do kterého faktoru, nebo řečeno jinak, kterými položkami jsou jednotlivé faktory syceny. Zjistíme to prostřednictvím výpočtu faktorových zátěží (factor loadings). Tyto zátěže jsou korelace mezi faktorem a příslušnou položkou. Čím vyšší je tato korelace, tím více je faktor touto položkou sycen. Doporučuje se, aby tato korelace byla vyšší než 0,30. Obr. 11. 4. Nastavení Options ve FA Před tím, než výpočet faktorů spustíme (nastavení, které jsme udělali na obr. 11.3 by bylo již pro výpočet postačující), nastavíme si Options tak, aby do tabulky nebyly zobrazeny hodnoty se zátěží nižší než 0,3 a aby položky byly seřazeny podle velikosti. Výstup: Tab. 11.5: Faktorové zátěže Tato tabulka (11.5) je hlavním výstupem z FA. Přináší hodnoty korelačních koeficientů mezi položkou a příslušným faktorem. Vidíme, že už toto řešení je docela povedené, neboť většina faktorových zátěží je silná pouze v jednom faktoru a slabých ve faktoru druhém. Výjimkou je položka Q54E, která má vysoké faktorové zátěže v obou komponentách - korelace s 1. faktorem je -0,426 a s 2. faktorem je 0,517. Abychom tuto anomálii odstranili, provedeme tzv. rotaci faktorů. Rotace faktorů Abychom zvýšili interpretovatelnost faktorů, necháme je rotovat. Smyslem rotace faktorů je, aby se původně rozptýlené body co nejvíce přimkly k jednomu z extrahovaných faktorů. Představme si například, že jsme v nějakém výzkumu udělali FA z deseti položek a dostali jsme na základě metody hlavních komponent dvoufaktorové řešení, které je uvedeno v tab. 11.6. Tab. 11.6: Smyšlené faktorové zátěže deseti položek (ilustrace pro rotaci) +-----------------------------------+ | Položka | 1. faktor | 2. faktor | |-----------+-----------+-----------| | p1 | -0,419 | 0,414 | |-----------+-----------+-----------| | p2 | -0,306 | 0,188 | |-----------+-----------+-----------| | p3 | 0,476 | -0,825 | |-----------+-----------+-----------| | p4 | 0,461 | 0,711 | |-----------+-----------+-----------| | p5 | 0,407 | 0,597 | |-----------+-----------+-----------| | p6 | 0,549 | -0,688 | |-----------+-----------+-----------| | p7 | 0,535 | 0,479 | |-----------+-----------+-----------| | p8 | -0,382 | -0,421 | |-----------+-----------+-----------| | p9 | -0,507 | 0,415 | |-----------+-----------+-----------| | p10 | -0,505 | -0,545 | +-----------------------------------+ Každou položku (p1 až p10) máme v této tabulce popsanou dvěma souřadnicemi, hodnotou korelace (faktorovou zátěží) této položky s prvním faktorem a hodnotou korelace této položky s druhým faktorem. Nechejme si tyto hodnoty zobrazit do grafu (viz obr. 11.5), v němž jsme u každé položky vynášeli hodnoty faktorové zátěže 1. faktoru na osu X a hodnoty faktorové zátěže 2. faktoru na osu Y. Obr. 11.5: Faktorové zátěže 10 položek ve dvoufaktorovém řešení Je zřejmé, že toto nerotované řešení nemá dobrou interpretaci, neboť jednotlivé body jsou od os (faktorů) poměrně daleko. Proto se rozhodneme pro rotaci faktorů, v daném případě pro rotaci ortogonální, to je pravoúhlou, kdy dodržíme skutečnost, že i po rotaci budou osy (faktory) svírat pravý úhel a že tedy budou na sobě nezávislé,budou nekorelované (viz obr. 11.6). Obr. 11.6: Ukázka rotace faktorů: Rotací se jednotlivé souřadnice změnily. Tak např. položka p6 (viz v pravém dolním kvadrantu obrázku 11.6) měla v nerotovaném řešení souřadnice 0,549 a --0,688, zatímco v řešení rotovaném se souřadnice změnily na (řečeno přibližně) 0,7 a 0,04. To má velký význam pro interpretaci: zatímco v nerotovaném řešení, jsme nevěděli, zda přiřadit položku p6 k prvnímu, nebo zda ke druhému faktoru, v řešení rotovaném je jasné, že tato položka jasně spadá pod faktor 1, neboť s tímto faktorem je silně korelována (0,7), zatímco s faktorem 2 je korelace nulová (0,04). Kromě pravoúhlé rotace existuje i rotace šikmá (velmi často se používá postupu Oblimin). Ta spočívá v tom, že předpokládáme, že extrahované faktory nejsou nekorelované, ale že naopak spolu souvisejí. Rotace pak probíhá stejně, jako u rotace ortogonální, pouze s tím rozdílem, že faktory (osy) spolu při rotaci udržují úhel menší než 90 stupňů. Vrátíme-li se opět k našemu příkladu, je zřejmé, že je třeba volit rotaci faktorů. Držme se rotace ortogonální, která se v SPSS provádí metodou Varimax. Rotaci zadáme tím způsobem, že v dialogovém okně faktorové analýzy (viz obr. 11.2) klikneme na tlačítko Rotation a v jeho dialogovém okně zaškrtneme metodu Varimax a budeme požadovat zobrazení rotovaného řešení. Rotované řešení uvádí tabulka 11.7. Tab. 11.7: Faktorové zátěže po rotaci varimax Toto rotované řešení nám bohužel nijak nepomůže v interpretaci. Naopak přibylo položek, které mají poměrně silnou korelaci v obou položkách, takže pojmenování faktorů by bylo obtížné. Zkusme ještě šikmou rotaci obliminovou (viz obr. 11.8): Tab. 11.8: Faktorové zátěže po šikmé rotaci oblimin Toto řešení se blíží nerotovanému postupu v metodě hlavních komponent. Můžeme tedy faktorovou analýzy uzavřít s tím, že se ukazuje, že v českém prostředí se položky rozkládají přinejmenším do dvou faktorů. Jelikož ale položka Q54E spadá do obou faktorů, je jasným kandidátem na to, aby byla z dalších analýz vyloučena. Pak už nám ale zůstane pouze položka Q54B tvořící samostatný faktor, což nemá příliš valného smyslu -- i tu můžeme z analýzy vyloučit. [1] Proveďme si znovu FA, nyní již pouze se zbylými šesti položkami -- výsledkem je přehledná jednofaktorová struktura (viz tab. 11.9). Tab. 11.9: Výsledná matice faktorových zátěží V naší úloze jsme tedy zjistili, že z osmi položek, o nichž jsme se domnívali, že měří dimenzi paternalismus--liberalismu, můžeme smysluplně pro vytvoření nové proměnné použít pouze položek šest. Nyní tedy zbývá poslední krok, a to konstrukce nové proměnné: paternalismus. K dispozici máme tři způsoby, jak ji vytvořit. 1. Jednoduše tak, že pomocí nám již známé procedury Compute sečteme hodnoty těchto šesti extrahovaných položek, čímž u každého respondenta vytvoříme skóre paternalismu-liberalismu. Minimální hodnota této nové proměnné bude 6 (6 x 1), což je nejvyšší paternalismus, maximální pak 60 (6 x 10), což je nejvyšší liberalismus. Nebo můžeme: 2. Opět použijeme proceduru Compute, ale nyní do ní zabudujeme výsledky faktorové analýzy. Každé položce přiřadíme váhu její faktorové zátěže, to je vynásobíme ji hodnotu její korelace s faktorem, kterou máme ve výsledném řešení FA (tab. 12.8). Zápis bude mít tuto podobu: Q54A*0,746 + Q54C*0,580 + Q54D*0,636 + Q54F*0,706 + Q54G*0,671 + Q54H*0,700. Nebo postupujeme takto: 3. Vytvoříme novou proměnnou s přímo s pomocí faktorové analýzy. V proceduře FA klikneme na tlačítko Scores a v novém dialogovém okně zaškrtneme příkaz Save as variables. Jelikož výše uvedený příklad byl poněkud atypický, neboť vedl k extrakci pouze jednoho faktoru, ukažme si ještě jeden příklad použití FA. Je rovněž z výzkumu EVS, z části, která sledovala, jaké položky jsou v percepci respondentů důležité pro spokojené manželství. Tabulka 11.10 již přináší rotované řešení: Tab. 11.10: Faktorové zátěže po rotaci varimax s vynechanými hodnotami pro zátěže menší než 0,3 Ukazuje se, že baterie 16 položek se rozpadá do pěti faktorů (hodnota KMO byla 0,76 a Bartlettův test byl signifikantní). Vidíme, že první faktor je sycen čtyřmi položkami (vyznačenými žlutě) a že korelace těchto položek s ostatními faktory je ve všech případech kromě jednoho (jedná se o korelaci položku Q40_1 s pátým faktorem, ale tato korelace není příliš vysoká, takže ji můžeme ignorovat) vyšší než 0,3. Nyní je třeba se zamyslet nad sémantickým významem těchto čtyř položek a je potřeba je pojmenovat nějakým společným výrazem. Pracovně bychom mohli první faktor nazvat "faktorem společných aktivit a věrnosti". Druhý faktor by mohl být nazván "sociální homogenita manželů", třetí "materiální podmínky" atd. Zdá se tedy, že co se týče charakteristik nutných pro úspěšné manželství, je z hlediska české veřejnosti nejsilněji působícím momentem faktor společných aktivit partnerů, druhým pak faktor sociální homogenity partnerů a třetím faktor materiálních podmínek -- tyto tři faktory vyčerpávají největší podíl variance (viz tab. 11.11). Tab. 11.11: Podíl vysvětlené variance jednotlivými komponentami Tento meritorní (věcný) výsledek FA má ještě důležité metodologické implikace. Pokud bychom chtěli vytvořit z jednotlivých položek součtový index předpokladu úspěšného manželství, FA jasně ukazuje, že bychom těchto indexů museli vytvořit minimálně pět -- tedy tolik, kolik faktorů FA extrahovala. Tímto výpočtem ovšem řešení úlohy pomocí faktorové analýzy ještě nemusí končit. Dá se např. předpokládat, že do postojů o příčinách úspěšného manželství bude intervenovat věk, že mladá populace bude mít jiné postoje, než populace starší nebo že jiné postoje budou zaujímat respondenti svobodní a jiné respondenti ženatí či rozvedení atd. Proto bychom mohli nasadit faktorovou analýzu pro různě definované podsoubory (ty bychom vybrali např. s pomocí procedury Select cases) a mohgli bychom srovnávat jednotlivá řešení. * * * Závěrečná poznámky Faktorová analýza je mocným exploračním nástrojem analýzy dat. Používá se velmi často především jako nástroj technický -- např. před vytvořením součtového indexu kontrolujeme, zdali všechny položky, které zamýšlíme sečítat do jednoho indexu, jsou extrahovány do stejného (jednoho) faktoru. Faktorová analýza ovšem přináší i výsledky věcné, které slouží pro zodpovězení příslušné výzkumné otázky. Např. v úloze o podmínkách šťastného manželství je možné jednotlivá faktorová skóre uložit jako novou proměnnou (jak na to viz obrázky na str. 12 a 13) a pak lze spočítat např. korelaci faktorových skóre s věkem. Výsledkem by byla tabulka 11.12. Tab. 1.12: Pearsonovy korelace jednotlivých faktorových skóre s věkem respondenta Z korelací je patrné, že např. faktorová skóre prvního faktoru s věkem vůbec nekoreluje (r = 0,02), ale že jistá korelace se objevila u faktorových skóre druhého faktoru. Sociální homogenita manželů jakožto podmínka úspěšného manželství je tak korelována s věkem. Čím vyšší je věk respondenta, tím nižší je hodnota tohoto faktorového skóre, neboli pro starší respondenty není sociální homogenita manželů tak důležitá jako pro respondenty mladší. Tímto konstatováním jsme se dostali k samotnému závěru kursu. Jeho poslední dvě lekce (regresní analýza a faktorová analýza) byly současně i jakýmsi úvodem k multivariačním technikám statistické analýzy, jejichž společným znakem je to, že při analýze berou v úvahu paralelní působení mnoha (to je nejenom dvou nebo tří) proměnných. Jak se tyto multivariační analýzy provádějí, je obsahem kursu v magisterském studiu (kurs SOC418). Všechny z vás, jimž jsme analýzu dat naším bakalářským kursem neznechutili, v něm velmi rádi uvítáme. ------------------------------- [1] Zkuste si pro zajímavost udělat FA pro sedm položek, to je včetně položkyQ54B. Uvidíte, že i tato úloha vede k tomu, že je třeba položku Q54B z analýzy vyloučit.