Faktorová analýza PSYb2590: Základy psychometriky | Přednáška 4 27. 3. 2023 | Hynek Cígler (& Adam Ťápal in memoriam) FA v kostce Pokud a zároveň , pak platí: Metaforické pochopení FA nestačí. Je nezbytně nutné skutečně rozumět analytickému principu. Uvedené vzorce je bezpodmínečně nutné chápat, znát a umět použít. Jsou jednoduché; zbytek hodiny se je pokusíme interpretovat. CTT vs. teorie latentních rysů (např. FA) Klasická testová teorie: • Položky jsou paralelními (zaměnitelnými) testy (měřítky) měřeného konstruktu. • Měřeným konstruktem je pravé skóre (true score) osoby v testu. • Měřený konstrukt je tedy závislý na testu (souboru položek), je jím operacionalizovaný („Pravé skóre je to, co měříme tímto testem“). • Operacionalismus: Konstrukt (a jeho význam) nelze oddělit od metody. • Antirealismus: Konstrukt reálně neexistuje, je „vymyšlen“ pro popis pozorování. CTT vs. teorie latentních rysů (např. FA) Teorie latentních rysů: • Konstrukty reálně existují. • Konstrukty kauzálně způsobují reakce na stimuly / odpovědi na položky. • Konstrukty jsou společnou příčinou chování. (Položky v testu inteligence spolu korelují, potože správnost odpovídání na ně má společnou příčinu – inteligenci.) • Realismus: Konstrukty = latentní rysy existují a jsou příčinou pozorovaného chování. Latentní rys: Schopnost rychle běžet Skill v šachu Jak se (třeba) projevuje? 1) Jak rychle zaběhl 100m? 2) Jak rychle zaběhl 400m? 3) Jak rychle zaběhl 800m? 1) Kolikrát z 10 her porazil cvičenou opici? 2) .... okresního mistra v šachu? 3) .... Garriho Kasparova? Latentní rys: Schopnost rychle běžet Skill v šachu Pro srovnání CTT: Jak rychle zaběhl dohromady 100+400+800 = 1300m? Alternativně CTT: Jak rychle zaběhne průměrný závod vylosovaný z domény běžných závodů? Pro srovnání CTT: Kolikrát z 10+10+10 her porazil cvičenou opici + okresního mistra + Kasparova? Alternativně CTT: Kolikrát z deseti her porazí průměrného soupeře vylosovaného z domény běžných soupeřů? Faktorová analýza • Vysvětluje / popisuje vztahy mezi (spojitými) manifestními proměnnými a (spojitými) latentními proměnnými (rysy) • Manifestní proměnná (MV) – proměnná, kterou lze přímo měřit či pozorovat • Latentní proměnná (LV) – proměnná, kterou NELZE přímo měřit či pozorovat – hypotetický konstrukt. Faktory ve faktorové analýze jsou právě latentními proměnnými. Tedy – faktor (LV) je stále nějaká (spojitá) proměnná a různí lidé „mají“ své skóry na této proměnné (alespoň to je předpoklad  ) Manifestní proměnné: Běh: 1) Jak rychle zaběhl 100m? 2) Jak rychle zaběhl 400m? 3) Jak rychle zaběhl 800m? Šachy: 1) Kolikrát z 10 her porazil cvičenou opici? 2) .... okresního mistra v šachu? 3) .... Garriho Kasparova? Latentní proměnné: Schopnost rychle běžet Skill v šachu Měřené osoby: Adolf Běh: (20s, 90s, 180s) Šachy: (3, 1, 0) Bruno Běh: (40s, 180s, 300s) Šachy: (4, 2, 1) Cecil Běh: (50s, 190s, 320s) Šachy: (7, 4, 3) Faktorová analýza Schopnost rychle běžet ani skill v šachu neumíme (nemůžeme) nijak „přímo“ měřit, zbývá nám na ně usuzovat. Předpokládáme, že obě latentní proměnné se manifestují skrze něco, co měřit nebo pozorovat můžeme – manifestní proměnné. Rozdílná schopnost rychle běžet mezi osobami se bude manifestovat rozdílnými časy na jednotlivých tratích, ale nebude mít sama o sobě nic společného s počtem výher v šachu. Rysy osobnosti či postoje se mohou manifestovat mírou (nesouhlasu) s tvrzeními, která by měla být pro vysokou/nízkou míru rysu typická.„ ◦ Hrozně rád jsem ve společnosti středem pozornosti“. Faktorová analýza Faktorová analýza nám do ruky dává matematický nástroj (statistický model), který nám umožňuje vztahy mezi manifestními a latentními proměnnými studovat. Na předchozích slidech jsme si představili základní premisu FA konceptuálně, jako takový myšlenkový experiment Pojďme to vzít trochu techničtěji a abstraktněji – představením modelu. Jak podstatu tohoto myšlenkového experimentu propojíme s reálnými daty, s něčím pozorovatelným či měřitelným? Základní pojmy • Jaká je typická podoba dat v případě faktorové analýzy? • Multivariační data – data pro soubor osob, větší množství manifestních (měřených, pozorovaných) proměnných (např. skóry z testů, škál, položek...) Datová matice: Co sloupec, to proměnná Co řádek, to osoba Základní pojmy • Jednotlivé buňky v datové matici představují skór dané osoby na dané manifestní proměnné • Fundamentální premisa faktorové analýzy: Tyto skóry nejsou nějakými náhodnými hodnotami, ale vykazují určité systematické aspekty, kterými se můžeme zabývat Datová matice: Co sloupec, to proměnná Co řádek, to osoba Základní pojmy Datová matice: X = Skór osoby i na proměnné j x11 x12 x1p xij xN1 xN2 xNp p sloupců (proměnných) N řádků (osob) Základní pojmy Čeho si můžeme na těchto datech všimnout? ◦ Variabilita každé proměnné napříč osobami (rozptyl / SD) ◦ Kovariance dvou proměnných napříč osobami (kovariance / korelace) x11 x12 x1p xij xN1 xN2 xNp Základní pojmy Korelační matice: R = 1 r12 r13 … … … r1p r21 1 r23 r2p r32 r32 1 r3p ⋮ ⋱ rkj ⋮ rjk ⋱ ⋮ ⋱ rp1 rp2 rp3 1 p manifestních proměnných p manifestních proměnných Pozn.: Na obrázku je korelační matice (na diagonále jsou jedničky 𝑟𝑗𝑗 = 1, mimo diagonálu korelace 𝑟𝑗𝑘), faktorová analýza ale velmi často pracuje s kovarianční maticí, kde na diagonále je rozptyl (𝜎𝑗𝑗 2 ) a mimo diagonálu kovariance (𝜎𝑗𝑘) příslušných proměnných. Typicky EFA pracuje s korelační, zatímco CFA s kovarianční maticí. Z kovarianční matice lze získat korelační matici snadno, 𝑟𝑗𝑘 = 𝜎 𝑗𝑘 𝜎𝑗𝑗 2 𝜎 𝑘𝑘 2 . Naopak to nefunguje, protože korelační matice nenese informaci o rozptylech. Off-topic: 2 druhy analýz Pokud chceme analyzovat nějaký dataset pomocí faktorové analýzy (aj.), máme v zásadě dvě možnosti: Limited-information approach: ◦ Nevyužijeme všechna data, ale data si (1.) zjednodušíme a pak (2.) analyzujeme tato zjednodušená data. ◦ Tento přístup má nějaké omezení (předpoklady) a mnoho výhod (analytická jednoduchost). ◦ Typicky: EFA i CFA, které pracují právě s kovariační maticí (tedy bivariačními statistikami položek). Full-information approach: ◦ Pro analýzu využijeme všechna data. ◦ Tento postup má méně omezení, občas není potřebný, je statisticky náročnější, ale má řadu výhod. ◦ Typicky: tzv. item-factor analysis (teorie odpovědi na položku), modelování nelineárních vztahů, ale třeba i tzv. FIML práce s chybějícími daty v CFA (částečně, stále pracuje s kovarianční maticí). Základní princip a předpoklady FA Korelace mezi dvěma manifestními proměnnými je způsobena tím, že tyto manifestní proměnné jsou funkcemi jednoho nebo více společných faktorů. V rámci nějaké domény existuje (relativně) malé množství faktorů, které ovlivňují (relativně) velké (hypoteticky nekonečné) množství manifestních proměnných. Tím způsobují pozorovatelné korelace (kovariance) mezi těmito manifestními proměnnými. Míra toho, jak moc ten který faktor ovlivňuje danou manifestní proměnnou, je reprezentována faktorovým nábojem – jakousi silou, s jakou faktor ovlivňuje manifestní proměnnou (0 = faktor MV neovlivňuje). Faktorové náboje jsou ekvivalentní regresním koeficientům – faktor je nezávislá proměnná (prediktor) a MV je závislá proměnná (outcome). Model dat v FA • Vraťme se k příkladu s během a šachy (a chvíli se tvařme, že žádné jiné latentní proměnné na světě neexistují) Čas 100m𝑖 = 𝜆 𝐵 ∗ 𝑆𝑐ℎ𝑜𝑝. 𝑏ěℎ𝑖 + 𝜆Š ∗ 𝑆𝑘𝑖𝑙𝑙. š𝑎𝑐ℎ𝑖 • Čas, za který osoba i uběhne 100m, je lineární funkcí skóru osoby i na latentních proměnných Schopnost běžet a Skill v šachu • 𝜆 𝐵 a 𝜆Š jsou mírou lineárního efektu těchto latentních proměnných na skór (čas) v manifestní proměnné Běh na 100 metrů. Jedná se o faktorové náboje • Faktorové náboje nemají subscript i, nezávisí na dané osobě • ...závisí však na MV. V tomto případě bude zřejmě platit 𝜆Š = 0 Model dat v FA • Ovlivnily ale výkon osoby i pouze tyto latentní proměnné? Co když třeba sice dobře běhá, ale nemá rád krátké tratě (takže se moc nesnažil) a ještě k tomu mu špatně změřili čas? Čas 100m𝑖 = 𝜆 𝐵 ∗ 𝑆𝑐ℎ𝑜𝑝. 𝑏ěℎ𝑖 + 𝜆Š ∗ 𝑆𝑘𝑖𝑙𝑙. š𝑎𝑐ℎ𝑖 + 𝑁𝑒𝑟𝑎𝑑. 𝑘𝑟á𝑡𝑘é. 𝑡𝑟𝑎𝑡ě𝑖 + 𝐶ℎ𝑦𝑏𝑎𝑖 • Schopnost běhat by ovlivnila i jiný výsledek člověka i, třeba v běhu na 1000 metrů – byla by v tomto případě tzv. obecným / společným faktorem • Láska ke krátkým tratím i momentální chyba měření jsou v tomto případě tzv. unikátním faktorem – čas v běhu na 1000m neovlivní. • Láska ke krátkým tratím je ale v tomto případě systematická – pokud by člověk i běžel 200m, projeví se a stane se v takovou chvíli obecným (společným faktorem). Takovou část unikátního faktoru nazýváme specifickým faktorem. Common Factor Model • Právě jsme si (konceptuálně) popsali tzv. Common Factor Model (L. L. Thurstone), který je modelem faktorové analýzy od 40. let 20. století do současnosti • Existovaly dřívější modely faktorové analýzy, jako např. analýza tetrád aj. • Existují i jiné příbuzné modely, jako např. analýza hlavních komponent (PCA). Neplést! • Dle CFM jsou manifestní proměnné funkcí dvou druhů faktorů: • Obecných / společných faktorů (Common factors), které jsou společné dvěma a více MV v datové matici • Unikátních faktorů (Unique factors), které ovlivňují pouze jednu MV. Unikátní faktory tak nevysvětlují (nezpůsobují) žádnou korelaci mezi dvěma MVs. Common Factor Model • Každý unikátní faktor se skládá ze dvou komponent: • Ze specifického faktoru • Z (náhodné) chyby měření ...specifický faktor reprezentuje nějaké systematické vlivy, které ovlivňují pouze jednu danou manifestní proměnnou. Chyba měření představuje náhodnou chybu. • Pokud nemáme k dispozici žádné další informace, v modelu nelze chybu od specifického (systematického) faktoru oddělit. • Specifický (systematický) faktor se ale může stát společným faktorem, jestliže nás začne zajímat nějaká další manifestní proměnná, která je jím také ovlivňována Common Factor Model • Rozptyl každé manifestní proměnné je rozložitelný následujícím způsobem: Pozorovaný rozptyl = Společný rozptyl + Unikátní rozptyl Unikátní rozptyl = Specifický rozptyl + Chybový rozptyl  Pozorovaný rozptyl = Společný rozptyl + Specifický rozptyl + Chybový rozptyl Komunalita (Communality) = 𝑆𝑝𝑜𝑙𝑒č𝑛ý 𝑟𝑜𝑧𝑝𝑡𝑦𝑙 𝑃𝑜𝑧𝑜𝑟𝑜𝑣𝑎𝑛ý 𝑟𝑜𝑧𝑝𝑡𝑦𝑙 = 1 − 𝑈𝑛𝑖𝑘á𝑡𝑛í 𝑟𝑜𝑧𝑝𝑡𝑦𝑙 𝑃𝑜𝑧𝑜𝑟𝑜𝑣𝑎𝑛ý 𝑟𝑜𝑧𝑝𝑡𝑦𝑙 ... = podíl pozorovaného rozptylu, který je způsoben obecnými (společnými) faktory Common Factor Model 𝑥𝑖𝑗 = 𝜇 𝑗 + 𝜆𝑗1 𝑧𝑖1 + 𝜆𝑗2 𝑧𝑖2 + ⋯ + 𝜆𝑗𝑚 𝑧𝑖𝑚 + 1𝑢𝑖𝑗 Průměr + Obecné faktory + Unikátní faktor 𝑥𝑖𝑗 je skór osoby i na manifestní proměnné j 𝜇 𝑗 (mí; mean) je průměr manifestní proměnné j 𝑧𝑖𝑘 je skór osoby i na obecném faktoru k 𝜆𝑗𝑘 (lambda; loading) je faktorový náboj manifestní proměnné j na faktoru k 𝑢𝑖𝑗 je skór osoby i na unikátním faktoru j Common Factor Model Rovnice modelu vypadá jako rovnice pro vícenásobnou lineární regresi. ◦ Manifestní proměnné jsou závislými proměnnými. ◦ Faktory jsou nezávislými proměnnými. ◦ Faktorové náboje jsou regresními koeficienty. Faktorový model je jako sada vícenásobných lineárních regresí, kde nezávislé proměnné jsou nepozorované a neměřené (... a nepozorovatelné a neměřitelné). Všechny parciální korelace mezi jednotlivými manifestními proměnnými – ve chvíli, kdy kontrolujeme vliv obecných faktorů – jsou předpokládány za nulové. Jinými slovy: korelace mezi jednotlivými manifestními proměnnými jsou způsobeny jen a pouze obecnými faktory. ◦ Porušení tohoto předpokladu vede k neshodě modelu s daty. Common Factor Model Model dat slouží k vysvětlení struktury a podoby syrových dat (tedy skórů na manifestních proměnných). Faktorová analýza se však vlastně nezabývá strukturou a podobou syrových dat. Zabývá se vysvětlením kovariancí / korelací mezi MVs. ◦ V případě jediné dimenze je kovariance položek a, b rovna 𝜎 𝑎𝑏 = 𝜆 𝑎 𝜆 𝑏 𝜙, kde 𝜙 je rozptyl faktoru. ◦ V případě korelační (nikoli kovarianční) matice a pokud 𝜙 = 1 (typicky EFA) platí 𝑟𝑎𝑏 = 𝜆 𝑎 𝜆 𝑏. Má to tedy „malou“ výhodu – nepotřebujeme k tomu znát skóry osob na latentních proměnných (které stejně neznáme a znát nemůžeme – jsou nepozorované a neurčitelné [indeterminate]). Model kovarianční struktury • Kovarianční struktura (tedy vysvětlení korelací / kovariancí) v Common Factor Modelu: 𝜮 = 𝜦𝜱𝜦′ + 𝑫 𝝍 • Σ (sigma) je matice korelací / kovariancí mezi manifestními proměnnými • Λ (lambda) je matice faktorových nábojů (apostrof značí transpozici) • Φ (phi / fí) je matice korelací / kovariancí mezi (obecnými) faktory. Faktory být korelované nemusí – v takovém případě lze říci, že faktory jsou tzv. ortogonální • Dψ (D-psi / D-psí) je matice rozptylů unikátních faktorů (a případně reziduálních kovariancí). • ...jak možná správně tušíte, k faktorové analýze nepotřebujete syrová data, ale korelace / kovariance mezi MVs. Model kovarianční struktury Vzorec 𝜮 = 𝜦𝜱𝜦′ + 𝑫 𝝍 lze rozepsat do rovnice pro každý pár dvou položek (případně pro jedinou položku, pokud 𝑖 = 𝑗). Kovariance 𝜎𝑖𝑗 2 proměnných 𝑖, 𝑗 (případně rozptyl jediné proměnné 𝑖, pokud 𝑖 = 𝑗) je v případě přítomnosti dvou faktorů 𝑓 a 𝑔 roven: 𝜎𝑖𝑗 2 = 𝜆𝑖𝑓 𝜆𝑗𝑓 𝜙 𝑓𝑓 + 𝜆𝑖𝑔 𝜆𝑗𝑔 𝜙 𝑔𝑔 + 𝜆𝑖𝑓 𝜆𝑗𝑔 𝜙 𝑓𝑔 + 𝜃𝑖𝑗 ◦ 𝜆𝑖𝑓 – náboj položky 𝑖 na faktoru 𝑓. ◦ 𝜙 𝑓𝑓, 𝜙 𝑔𝑔 – rozptyly faktorů 𝑓, 𝑔. ◦ 𝜙 𝑓𝑔 – kovariance faktorů 𝑓, 𝑔. ◦ 𝜃𝑖𝑗 – reziduální kovariance položek 𝑖, 𝑗 (typicky 0). V případě F faktorů: 𝜎𝑖𝑗 2 = 𝜃𝑖𝑗 + ෍ 𝑓=1 𝐹 ෍ 𝑔=𝑓 𝐹 𝜆𝑖𝑓 𝜆𝑗𝑔 𝜙 𝑓𝑔 O co nám tedy ve FA jde? • Cílem je odhalit, pochopit a popsat strukturu, která „způsobuje“ korelace mezi manifestními proměnnými. • Chceme tedy identifikovat (nebo ověřit) počet a charakter (význam) faktorů, které způsobují pozorované korelace mezi manifestními proměnnými. • Jinými slovy, chceme přijít na to, kolik obecných / společných faktorů ovlivňuje naše manifestní proměnné a odhadnout sílu a směr (+/-) faktorových nábojů. • Velikost a směr faktorových nábojů nám napomáhá v určení podstaty faktoru. Význam faktoru je totiž vymezen tou podmnožinou všech manifestních proměnných, které jsou faktorem výrazně ovlivňovány Příklad Představme si, že pro vzorek jedinců máme k dispozici skóry ze 4 testů: porozumění textu (PC), slovní zásoba (VO), aritmetika (AR), matematické slovní úlohy (MPS). Z dat získáme následující korelační matici: PC VO AR MPS PC 1 VO .49 1 AR .14 .07 1 MPS .48 .42 .48 1 Příklad Chtěli bychom identifikovat faktory, které „můžou“ za korelace mezi proměnnými, abychom těmto korelacím porozuměli. Aplikujeme metody faktorové analýzy a získáme následující matici faktorových nábojů: Faktor 1 Faktor 2 PC .70 .10 VO .70 .00 AR .10 .70 MPS .60 .60 porozumění textu (PC) slovní zásoba (VO) aritmetika (AR) matematické slovní úlohy (MPS) Příklad Faktor 1 Faktor 2 PC .70 .10 VO .70 .00 AR .10 .70 MPS .60 .60 • Prvky v této matici představují sílu lineárního vztahu mezi každým faktorem a každým testem (manifestní proměnnou) • Jaký může být význam Faktoru 1 a Faktoru 2? porozumění textu (PC) slovní zásoba (VO) aritmetika (AR) matematické slovní úlohy (MPS) Explorační a konfirmační FA • Ve světě faktorové analýzy rozlišujeme dvě situace: • Explorační (exploratory / unrestricted) FA: Nemáme žádnou (nebo jen velmi mlhavou) představu o tom, kolik faktorů a jakého charakteru je „za daty“ • Konfirmační (confirmatory / restricted) FA: Máme celkem jasnou představu o tom, kolik faktorů a jakého charakteru je „za daty“ • ...teoretický model, který v obou případech používáme, je totožný! Explorační a konfirmační FA Ve světě faktorové analýzy rozlišujeme dvě situace. Explorační (exploratory/unrestricted) FA: EFA ◦ Nemáme žádnou (nebo jen mlhavou) představu o tom, kolik faktorů a jakého charakteru je „za daty“. ◦ Cílem je prozkoumat data a navrhnout možnou teoretickou strukturu, která by data „vysvětlila“. Konfirmační (confirmatory/restricted) FA: CFA ◦ Máme celkem jasnou představu o tom, kolik faktorů a jakého charakteru je „za daty“. ◦ Cílem je otestovat teoretickou strukturu oproti těmto datům. Ovšem teoretický model, který v obou případech používáme, je totožný! ◦ I CFA lze použít „exploračně“ (například srovnat několik různých modelů, modely různě upravovat a snažit se je „napasovat na data“ a podobně). Explorační faktorová analýza (EFA) Long story short: ◦ Vybereme data, na něž EFA aplikujeme. ◦ Zvolíme si počet faktorů. Můžeme použít nějakou z vhodných metod. ◦ Zvolíme si metodu odhadu. ◦ Pomocí SW realizujeme vlastní analýzu. To zahrnuje: ◦ Odhad korelační matice (co s chybějícími daty?). ◦ Odhad faktorových nábojů s využitím této matice. ◦ Vyhodnotíme shodu modelu s daty. ◦ Zvolíme si metodu rotace a rotaci pomocí SW provedeme (více později). ◦ Vyhodnotíme, zda výsledek „působí“ přijatelně (teorie, zkušenost...). EFA: předpoklady Obecné (společné) faktory a unikátní faktory jsou nezávislé a nekorelují spolu. Unikátní faktory jsou navzájem rovněž nezávislé a nekorelují spolu. Obecné a unikátní faktory mají z definice průměr 0. Obecné a unikátní faktory mají z definice rozptyl 1 (a tedy i SD = 1). Bez těchto předpokladů není model identifikovaný a není jej možné odhadnout. EFA: počet faktorů Počet faktorů může být odvozen teoreticky na základě očekávání. Občas je ale očekávání příliš vágní, a proto lze využít vhodnou metodu odhadu. Klíčové slovo: eigenvalue (vlastní hodnota). ◦ Spojeno s vysvětleným rozptylem. Jde o vyjádření množství vysvětleného rozptylu jedním faktorem. ◦ Každému faktoru je přiřazena určitá hodnota eigenvalue. ◦ Protože lze extrahovat maximálně tolik faktorů, kolik je položek, maximální suma eigenvalue dané korelační matice je rovna počtu položek. ◦ 1 eigenvalue lze tedy vnímat jako variabilita dat vysvětlená 1 průměrnou položkou. ◦ Eigenvalue/(počet položek) reprezentuje u (nekorelovaného) řešení tzv. „vysvětlený rozptyl“. Dva druhy eigenvalue: ◦ PCA: eigenvalue („před extrakcí“) je navýšené o chybu měření. Většina pravidel (včetně popisu výše) pracuje s touto variantou. ◦ EFA: eigenvalue („po extrakci“) je očištěné o chybu měření. EFA: počet faktorů Kaiserovo kritérium (Kaiserovo-Guttmanovo). ◦ Extrahujeme všechny faktory, jejichž eigenvalue (před extrakcí) > 1. ◦ Nepochopeno a zneužíváno, slabá opora v teorii – jen silně orientační! Typicky nadhodnocuje. Vizuální inspekce (Cattellova) scree-plotu. ◦ Eigenvalue se seřadí podle velikosti a vynesou do grafu. ◦ Identifikuje se bod zlomu a vezmou se všechny faktory s vyšším (a nebo stejným?) eigenvalue. ◦ Subjektivní, problematické, ale dobrý nástroj pro exploraci. (Hornova) paralelní analýza. ◦ Kombinuje výhody obojího (Kaiserovo kritérium + vizuální inspekce). ◦ Očišťuje Kaiserovo kritérium o výběrovou chybu. Velicerovo MAP (Minimum Average Partial). ◦ Optimální počet faktorů je takový počet, který ještě modeluje nějakou systematickou korelaci MV. EFA: rotace a rotační indeterminace Rotační indeterminace = rotační neurčitost. Vzorec FA: 𝜮 = 𝜦𝜱𝜦′ + 𝑫 𝝍 Jako řešení hledáme matici 𝜦, která co nejlépe popíše data. Drobný problém (při 2 a více faktorech): existuje nekonečně mnoho matic faktorových nábojů 𝜦, které jsou lineárními transformacemi původní matice. Pokud tedy najdeme nějaké řešení, našli jsme nekonečně mnoho stejně dobrých řešení. Klíčová otázka: Které z nich je to „správné“? EFA: rotace a rotační indeterminace Koncept jednoduché struktury (Thurstone; simple structure). Toho využívají tzv. rotace: najdou řešení, které splní nějaké kritérium jednoduché struktury. ◦ A díky tomu se nám výsledek snáze interpretuje. Žádná rotace: první faktor vysvětlí maximum rozptylu, zbylé faktory popisují „odlišnosti“. Rotace: snaží zjednodušit faktorovou strukturu. Velké množství rotací, obecně: Ortogonální rotace: faktory spolu nekorelují. Šikmé rotace: faktory spolu korelují. TLDR: Pokud nevíte, používejte šikmé rotace  EFA: Metoda odhadu parametrů • Je jich celá řada  • Nejobvyklejší metody jsou založeny na: • Maximum Likelihood (ML, silný předpoklad normality MVs) • Metodě nejmenších čtverců (Least Squares, menší předpoklad normality MVs) • Ordinary Least Squares (OLS) • Minimum Residual (Minres) • Analýza hlavních komponent (Principal Component Analysis, PCA) • Nejde o FA (je to jiný model), ale SPSS to chytře vydává za metodu odhadu parametrů • Použití v psychologii spíše neobvyklé, ale denní chleba třeba v machine learningu EFA: Heywood cases • Heywoodovy případy – někdy se může stát, že v odhadnutém modelu je některý rozptylový parametr záporný. • Rozptyl ale nemůže být záporný…je to něco jako dělit nulou. Když se to stane, někde umře koťátko nebo vesmír imploduje. • Pokud se vám to stane, pak je váš model nejspíš příliš složitý (příliš mnoho faktorů), nebo vám zlobí nějaká položka • …když už jsme u toho, obecně se snažte, aby vás model nebyl složitější, než je nutno. Úspornost (parsimony) je hlavním principem modelování (jakéhokoliv) EFA: Pár tipů • Simple structure • Faktor musí být identifikován alespoň 3 manifestními proměnnými • Používejte oblé rotace • Faktory můžete „obrátit“ • Faktorové skóry neznáme a znát nemůžeme, dají se ale odhadnout (což JASP ani JAMOVI neumí….) • EFA tedy v tomto kurzu používejte především k ověření / exploraci faktorové struktury a na základě ověření pracujte se součtovými skóry (pokud to budete potřebovat) EFA: Pár tipů • Pečlivě uvádějte postup volby počtu faktorů, metodu extrakce i rotace • U EFA je zcela akceptovatelné vyzkoušet sérii modelů, nejde o rybaření! • Máte-li silné předpoklady o modelu, volte CFA. • Alespoň N = P * F * 5 respondentů, kde P je počet položek a F počet faktorů • Nepoužívejte PCA • Nejmenší čtverce jsou vhodnou první volnou pro estimátor EFA: Pár tipů • Mějme na paměti, že FA je model – model, který reprezentuje nějakou hypotetickou strukturu uvnitř pozorovaných dat. Každý matematický model je – alespoň do nějaké míry – chybný a nedá se říct, že by perfektně a bez výhrad korespondoval s realitou • Model, který nám sice dává smysl konceptuálně, ale vůbec nesedí na data, je (většinou) k ničemu • Model, který skvěle sedí na data, ale nedává nám konceptuálně smysl, je (většinou) rovněž k ničemu • Neplatí, že by jen tak jakákoli data byla vhodná pro faktorovou analýzu. Konfirmační faktorová analýza (CFA) CFA testuje teoretický model oproti datům. Testování spočívá v tom, že omezíme nějaké parametry, čím dostaneme restriktivnější model oproti EFA. ◦ Omezení: parametry jsou nastavené do nějaké rozmezí (např. >0, <0,05 atp.). ◦ Fixování: parametry jsou nastavené na nějakou konkrétní hodnotu (typicky 0). Základní princip: některé faktorové náboje jsou nastaveny na 0. Tím je přímo „vytvořena“ jednoduchá struktura. Tato omezení (zpravidla) vedou k jednoznačné identifikaci faktorů, není nutná rotace. Konfirmační faktorová analýza (CFA) Long story short: ◦ Vyjasním si faktorovou strukturu, „zvolím“ si jednoduchou strukturu. ◦ Zvolím estimátor (jiné možnosti než u EFA). ◦ Pomocí SW odhadnu model, případně modely (lze navzájem srovnat). ◦ Pokud model nesedí na data, zvážím pár úprav. ◦ Pokud model nelze zlepšit, zamítám jej (a mohu nalézt lepší např. pomocí EFA). Posouzení shody s daty 1. Reziduální kovarianční matice (CFA i EFA). ◦ Které predikované kovariance se liší od pozorovaných kovariancí? Lokální shoda... 2. Chí-kvadrát test (CFA i EFA). ◦ Signifikance odlišnosti pozorované a predikované kovarianční matice. Enormní síla testu. 3. Indexy dobré/přibližné shody (CFA i EFA). ◦ Jak věcně významná je tato odlišnost? 4. Modifikační indexy (typicky jen CFA). ◦ Které omezené parametry by šlo uvolnit a tím zlepšit shodu s daty? Ale o tom všem na semináři...