LEKCE 11 FAKTOROVÁ ANALÝZA Představuje způsob REDUKCE DAT: 0M Jde o přeměnu souboru vzájemně korelovaných proměnných (matice jejich korelací) 0M na menší soubor "nekorelovaných" faktorů, tento původní soubor reprezentující +1 FAKTOR 1 *A (latentní proměnná 1) *B *D *C silnější korelace mezi A, B, C, D slabší korelace mezi proměnnými patřícími k různým faktorům (například mezi C a I, D a H etc.) I* -1 +1 korelace *E *G proměnné E H* s faktorem 1 FAKTOR 2 (latentní proměnná 2) korelace proměnné E silnější korelace s faktorem 2 mezi E, F, G, H, I -1 Poznámky: - Faktory jsou statistickými útvary. - Rozsah stupnic na osách je <-1;1> neboť jde o korelační koeficienty DEMONSTRACE VÝSLEDKU FAKTOROVÉ ANALÝZA Zde je seznam věcí, o nichž si lidé myslí, že jsou nutné pro úspěšné manželství. Prosím, řekněte mi pro každou z nich, zda ji považujete za 1 = velmi důležitou, 2 = spíše důležitou, nebo 3 = nepříliš důležitou pro úspěšné manželství. Časté debaty o společných zájmech 1 2 3 Dělba domácích prací 1 2 3 Společné trávení co nejvíce času 1 2 3 Věrnost 1 2 3 Shoda názorů na politiku 1 2 3 Společné náboženské přesvědčení 1 2 3 Stejný etnický původ 1 2 3 Stejný sociální původ 1 2 3 Děti 1 2 3 Dobré bydlení 1 2 3 Přiměřený příjem 1 2 3 Ochota diskutovat o problémech 1 2 3 Porozumění a snášenlivost 1 2 3 Vzájemná úcta a uznání 1 2 3 Dobré sexuální soužití 1 2 3 Oddělené bydlení od rodičů partnera 1 2 3 Zde jsou použité škály seřazeny tak, jak se seskupily při FAKTOROVÉ ANALÝZE v jednotlivých faktorech (nejsou tedy zde prezentovány vlastní výstupy z faktorové analýzy). Příklad uvádíme i s vědomím, že pouze třístupňové škály nejsou pro použití faktorové analýzy nejideálnější. POUŽITÍ FAKTOROVÉ ANALÝZY 0M Vytvoření faktorů a jejich věcná interpretace dle významu proměnných ve faktoru seskupených (vytvořit a pojmenovat). 0M Identifikace relevantních ukazatelů (vyřazení otázek, které nepracují tak, jak se od nich očekávalo - nepatří do faktoru jak se původně předpokládalo). 0M Vytvoření sumačních indexů uvnitř faktorů, nebo použití tzv. faktorových skóre jako nových proměnných a jejich další analýza např. pomocí procedur jako t-test, analýza variancí, regrese, diskriminační analýza. Příklad: Otázka: Prosím, řekněte o každé z následujících skutečností, jak je ve Vašem životě důležitá: Velmi Dost Ne příliš Vůbec ne důležitá důležitá důležitá důležitá Q1_1 Práce 1 2 3 4 Q1_2 Rodina 1 2 3 4 Q1_3 Přátelé a známí 1 2 3 4 Q1_4 Volný čas 1 2 3 4 Q1_5 Politika 1 2 3 4 Q1_6 Náboženství 1 2 3 4 Poznámka: Pro demonstraci volíme menší počet položek, ale ve skutečnosti má smysl položky faktorovat až od určitého většího počtu. POSTUP FAKTOROVÉ ANALÝZY 1. Musíme rozhodnout co s případy, které mají "missing value" pro některé z použitých proměnných. 2. Provedeme výpočet korelační nebo kovarianční matice (někdy tato matice může představovat vstupní data). Korelační matice je základním vstupem dat pro faktorovou analýzu, která je de facto právě analýzou korelační matice. 3. Zjišťujeme jak dobře odpovídá zvolený model faktorové analýzy našim datům a také zda jsou všechny proměnné vhodné (zda některé z nich neoslabují řešení). Mají-li proměnné velmi slabé korelace s ostatními proměnnými, měly by být v dalším běhu z analýzy vyloučeny (zjišťujeme, zda je model pro soubor o tyto proměnné oproštěný vhodnější. 4. Provedeme faktorovou extrakci (factor extraction) neboli současně identifikaci faktorů a určení příslušnosti jednotlivých položek k faktorům. Je možné zvolit z několika metod extrakce (doporučuje se začít s metodou hlavních komponentů - principle components). Provádí se též a odhad faktorových zátěží (factor loadings) neboli korelací mezi faktorem a jeho prvky (položkami k faktoru příslušejícími). 5. Rotace řešení. Má přispět k lepší interpretovatelnosti faktorové zátěže. Rotace faktorovou má za cíl dále zvýšit sílu silných zátěží a snížit sílu nízkých zátěží. Máme možnost volit z několika metod rotace. 6. Výpočet faktorových skóre pro každý případ a jejich přiřazení těmto případům (nové proměnné). Skóre může sloužit také k identifikaci odlehlých případů, formulaci strategie zacházení s nimi nebo pro další analýzy. 7. Eventuální uložení faktorových skóre pro další výpočty. Zadání položek, které budou faktorovány: Zadání popisných statistik a měr adekvátnosti použití faktorové analýzy JE FAKTOROVÁ ANALÝZA VHODNÝM MODELEM PRO DATA? (míry adekvátnosti použití faktorové analýzy) 0M Bartlettův test sféricity (Bartlett`s test of sphericty). 0M KMO: Kaiser-Mayer-Olkinova míra adekvátnosti výběru (Kaiser-Mayer-Olkin Measure of Sampling Adequacy) 0M Matice negativních hodnot parciálních koeficientů (anti-image correlation matrix) BARTLETTŮV TEST SFÉRICITY (Bartlett`s Test of Sphericity). Testování nulové hypotézy, že korelační matice je maticí jednotkovou (identity matrix) neboli, že v korelační matici jsou na diagonále hodnoty 1 a v ostatních polích hodnoty 0 neboli, že vztahy mezi kombinacemi všech dvojic proměnných neexistují. KMO - Kaiser-Mayer-Olkinova míra adekvátnosti výběru (Kaiser-Mayer-Olkin Measure of Sampling Adequacy) Index porovnávající velikosti pozorovaných korelačních koeficientů a velikost koeficientů parciální korelace. Malé hodnoty KMO indikují, nevhodnost použití faktorové analýzy (korelace mezi páry proměnných nemohou být vysvětleny jinými proměnnými). Velikost KMO a použitelnost FA: 0,90 ...................................... skvělá 0,80 ...................................... velmi dobrá 0,70 ...................................... střední 0,60 ...................................... slabší 0,50 ...................................... bídná pod 0,5 ................................ nevyhovující Příklad: Jak je vidět, použití faktorové analýzy není ideální (nepředstavuje vhodný model pro data). Zadání extrakce faktorů a metody této extrakce (zde Principal components): Rozhodnutí o podobě výstupu a o způsobu zacházení s missing values Označte při zadávání "sorted by size", dostanete nejčitelnější výstup! Zacházení s missing valeues: ˙ Listwise: Z analýzy jsou vyloučeny všechny případy, jež mají v některé z faktorovaných položek "missing value". ˙ Pairwise: Z analýza jsou vyloučeny případy s "missing values" jen pro ty konkrétní případy (položky), v nichž "missing value" existuje. TOTAL VARIANCE EXPLAINED Tabulka obsahuje ve sloupci "Eigenvalue" celkovou variance vysvětlenou každým faktorem. EIGENVALUES (také "characteristic roots" nebo "latent roots") jsou variance komponent. Jejich velikosti popisuje rozptyl nebo tvar shluku bodů v multivariačním prostoru, který má osu pro každou proměnnou, zahrnutou do analýzy. variance vysvětlitelné jednotlivými faktory 2. faktor: variance vysvětlená (1,175/6).100 = 19,59 všemi 3 faktory 1. faktor: (1,550/6).100 = 25,83 VŠIMNĚTE SI, ŽE V TOMTO PŘÍPADĚ JDE O DVĚ TABULKY: FAKTOROVÉ ZÁTĚŽE Při extrakci faktorů jsou pro jednotlivé položky počítány faktorové zátěže. INDIVIDUÁLNÍ FAKTOROVÉ ZÁTĚŽE (FACTOR LOADINGS) A[ji] PRO KAŽDOU PROMĚNNOU BY MĚLY BÝT BUĎ VELMI VYSOKÉ NEBO VELMI NÍZKÉ. Pak je proměnná asociována s minimálním počtem faktorů a je možné vysvětlit pozorované korelace s minimálním počtem faktorů. Prvotní extrakce faktorů (initial factor extraction) obvykle neposkytuje příliš interpretovatelné faktory. Provádíme tedy rotaci faktorů. Zadání rotace faktorů: Všimněte si, že zde máme možnost zadat rotované řešení (důležité, neboť nerotované řešení není optimální) a způsob rotace, ale také grafické vyjádření výsledku. ROTACE Představuje snahu zvýšit hodnotu vyšších faktorových zátěží proměnných a snížit hodnotu menších. ˙ ORTHOGONÁLNÍ ROTACE. Osy stále svírají pravý úhel. § VARIMAX. Je pokusem minimalizovat počet proměnných, které mají vysokou faktorovou zátěž s faktorem. § QUARTIMAX. Klade důraz na jednoduchou interpretaci proměnných, minimalizuje počet faktorů potřebných k vysvětlení proměnné. § EQUAMAX. je kombinací obou předchozích. § OBLIQUE ROTACE. Osy nemusí v konečném řešení svírat pravý úhel. § OBLIMIN. Parametr delta (d) kontroluje rozsah šikmosti. Když je roven 0, dosáhlo se nejvyšší šikmosti. Pro záporné hodnoty delta se faktory stávají méně šikmé jak se delta stává zápornější. ROTATED COMPONENT MATRIX Všimněte si, jak se Vám, díky použití "sorted by size", položky přehledně seřadily (konfrontujte výstup, který byste dostali bez použití tohoto příkazu). GRAFICKÉ VYJÁDŘENÍ Vytvoření grafu proměnných, který používá faktorové zátěže (faktorová sycení - factor loadings) jako souřadnice. Zadáte ho v menu "rotation" (loading plot). Trojrozměrný graf lze převést na několik dvourozměrných grafů. Klikneme v Output 2x na graf a editujeme ho. Edit Gallery Scatter Simple (replace) (omitt component ...):