Úvod do strukturního modelování PSY028_E – Statistická analýza dat v psychologii Blok 2 – Faktorová analýza Program • 1. 09:00 – 12:00 : Uvedení do faktorové analýzy • 2. 12:00 – 13:00 : Přestávka • 3. 13:00 – 15:00 : Faktorová analýza v R / lavaan Dva základní pojmy • Manifestní proměnná (MV) – proměnná, kterou lze přímo měřit či pozorovat • Latentní proměnná (LV) – proměnná, kterou nelze přímo měřit či pozorovat – hypotetický konstrukt. Faktory v rámci FA jsou právě latentními proměnnými. Tedy – faktor je stále nějaká proměnná a různí lidé „mají“ své skóry na této proměnné (základní předpoklad) Základní principy FA • Jaká je typická podoba dat v případě faktorové analýzy? Multivariační data – data pro soubor osob, větší množství manifestních (měřených, pozorovaných) proměnných (např. skóry z testů, škál, položek...) Datová matice: Co sloupec, to proměnná Co řádek, to osoba Základní principy FA Datová matice: X = N řádků (osob) Skór osoby i na proměnné j x11 x12 x1p xij xN1 xN2 xNp p sloupců (proměnných) R: 1 r12 r13 r1p r21 1 r23 r2p r32 r32 1 r3p rkj rjk rp1 rp2 rp3 1 • Cílem faktorové analýzy je odhalit a pochopit strukturu, která „způsobuje“ korelace mezi manifestními proměnnými – a to pomocí faktorů. • Základní princip – v rámci domény existuje (relativně) malé množství faktorů, které ovlivňují (relativně) velké množství manifestních proměnných a tím způsobují mezi těmito manifestními proměnnými korelace (kovariance) • Korelace mezi dvěma manifestními proměnnými je způsobena tím, že tyto manifestní proměnné jsou funkcemi jednoho nebo více společných faktorů • To, jak moc ten který faktor ovlivňuje danou manifestní proměnnou, je reprezentováno faktorovými náboji (factor loadings). • Hodnoty těchto faktorových nábojů představují sílu lineárního vztahu mezi faktorem a manifestní proměnnou. Faktorové náboje jsou ekvivalentní regresním koeficientům – faktor je nezávislá proměnná a MV je závislá proměnná • Celkový obraz faktorových nábojů nám napomáhá v interpretaci podstaty faktoru • Rozptyl každé manifestní proměnné je rozložitelný následujícím způsobem na několik základních komponent: Pozorovaný rozptyl = Obecný rozptyl + Unikátní rozptyl Komunalita (Communality) = Obecný rozptyl Pozorovaný rozptyl = 1 − Unikátní rozptyl Pozorovaný rozptyl ...podíl pozorovaného rozptylu, který je způsoben obecnými faktory (takové R^2) Model dat ve faktorové analýze Jak vlastně vypadá? 𝑥𝑖𝑗 = 𝜇 𝑗 + 𝜆𝑗1 𝑧𝑖1 + 𝜆𝑗2 𝑧𝑖2 + ⋯ + 𝜆𝑗𝑚 𝑧𝑖𝑚 + 1𝑢𝑖𝑗 Průměr + Obecné faktory + Unikátní faktor Kde: 𝑥𝑖𝑗 je skóre osoby i na manifestní proměnné j 𝜇 𝑗 je průměr manifestní proměnné j 𝑧𝑖𝑘 je skóre osoby i na obecném faktoru k 𝜆𝑗𝑘 je faktorový náboj manifestní proměnné j na obecném faktoru k 𝑢𝑖𝑗 je skóre osoby i na unikátním faktoru j Model dat ve faktorové analýze • Rovnice modelu vypadá jako rovnice pro vícenásobnou lineární regresi • Manifestní proměnné jsou závislými proměnnými • Faktory jsou nezávislými proměnnými • Faktorové náboje jsou regresními koeficienty • Faktorový model je jako sada vícenásobných lineárních regresí, kde nezávislé proměnné jsou nepozorované a neměřené (...a nepozorovatelné a neměřitelné) • Ve světě faktorové analýzy rozlišujeme dvě situace: Explorační (exploratory / unrestricted) FA: Nemáme žádnou (nebo jen velmi mlhavou) představu o tom, kolik faktorů a jakého charakteru je „za daty“ Konfirmační (confirmatory / restricted) FA: Máme celkem jasnou představu o tom, kolik faktorů a jakého charakteru je „za daty“ ...teoretický model, který v obou případech používáme, je totožný! ...v kurzu se budeme věnovat pouze konfirmační FA Model dat ve faktorové analýze • Vstupujeme do světa, kde už nám takový zápis pro dobré porozumění přestává stačit, a je potřeba začít s maticovou algebrou: 𝒙 = 𝝁 + 𝚲𝒛 + 𝒖 • Model dat slouží k vysvětlení struktury a podoby syrových dat (tedy skórů na manifestních proměnných) • Faktorová analýza se ale vlastně nezabývá strukturou a podobou syrových dat. Zabývá se vysvětlením kovariancí / korelací mezi manifestními proměnnými. Má to „malou“ výhodu – nepotřebujeme k tomu znát skóry osob na latentních proměnných, které stejně neznáme a znát nemůžeme – jsou nepozorovatelné a neurčitelné. Kovarianční struktura • Kovarianční struktura v maticovém zápisu: 𝚺 = 𝚲𝚽𝚲′ + 𝑫 𝜓 • 𝚺 je matice korelací / kovariancí mezi manifestními proměnnými • 𝚲 je matice faktorových nábojů • 𝚽 je matice korelací / kovariancí mezi (obecnými) faktory. Faktory (obecné) být korelované nemusí – v takovém případě lze říci, že faktory jsou tzv. ortogonální. • 𝑫 𝜓 je matice rozptylů unikátních faktorů • ...jak možná správně tušíte, k faktorové analýze syrová data nepotřebujete. Jako vstup postačí korelační / kovarianční matice MV Kovarianční struktura • Model kovarianční struktury 𝚺 = 𝚲𝚽𝚲′ + 𝑫 𝜓 ...je pořád jen model. Pokud se nejedná o právě identifikovaný model, matice korelací / kovariancí nebude vysvětlena perfektně. Identifikace • Vše, co bylo včera řečeno i identifikaci, nadále platí – počet odhadovaných parametrů nemůže být větší, než počet „kousků informace“ • To však nutně nestačí k tomu, aby byl model identifikovaný • Rozptyl faktoru je nutno nějak určit – 3 způsoby (Omezit rozptyl faktoru, omezit 1 náboj přímo, omezit 1 náboj nepřímo) • Umožnit unikátní řešení CFA model • Matice 𝚲, 𝚽 a 𝑫 𝜓 obsahují parametry modelu • Hypotéza ohledně počtu a povaze faktorů je přímo „přeložena“ do modelu prostřednictvím prvků těchto tří matic • Parametry modelu můžeme rozdělit do tří skupin: • Volně odhadované (free parameters) • Omezené na jednu hodnotu (fixed parameters) • Omezené vztahem s dalšími parametry (constrained parameters) CFA model • Tato omezení jsou zdaleka nejčastěji jedna a tatáž – předem určujete, které parametry (faktorové náboje, korelace mezi faktory) nabývají hodnoty 0. • Máte jasno ohledně jak počtu, tak charakteru faktorů -- vaše hypotéza se týká toho, kolik tušíte faktorů a jaké proměnné by měl ten který faktor ovlivňovat, a jaký je vztah jednotlivých faktorů mezi sebou CFA model • Představme si situaci, kdy máte šest manifestních proměnných (𝑥1 až 𝑥6) a dva faktory (𝑧1 a 𝑧2). • Vaše hypotéza zní: • Faktorové náboje prvních tří manifestních proměnných na faktoru 𝑧1 mají významnou velikost (jsou nenulové) a náboje dalších tří manifestních proměnných jsou v podstatě nulové. • Faktorové náboje prvních tří manifestních proměnných na faktoru 𝑧2 jsou v podstatě nulové a náboje dalších tří manifestních proměnných mají významnou velikost (jsou nenulové). • Faktory 𝑧1 a 𝑧2 spolu korelují. CFA model • Nejdříve si představíme modelové matice. Máme p = 6 manifestních a m = 2 latentních proměnných. • Z toho víme, že 𝚲 má 6 řádků a 2 sloupce, 𝚽 má velikost 2 x 2 a 𝑫 𝜓 má velikost 6 x 6 • Pojďme tedy matice zkonstruovat a zaplnit je volně odhadovanými i omezenými parametry CFA model 𝜦 = 𝜆11 0 𝜆21 0 𝜆31 0 0 𝜆42 0 𝜆52 0 𝜆62 ; 𝜱 = 1 𝜙21 1 CFA model 𝑫 𝜓 = 𝜓11 𝜓22 𝜓33 𝜓44 𝜓55 𝜓66 CFA model • Kolik máme stupňů volnosti? • Nejdřív pojďme spočítat volně odhadované parametry: 6 faktorových nábojů + 6 reziduálních rozptylů + 1 korelace mezi faktory = 13 parametrů k odhadnutí • Naše data, matice korelací mezi pozorovanými proměnnými, je 6 x 6 korelační matice (může být i kovarianční, ale...), která obsahuje [6 * (6-1)]/2 = 15 ne-redundantních prvků – „kousků informace“ • Počet stupňů volnosti je tedy 15 – 13 = 2 CFA model • Když odhadnu model: • Vypadají odhady parametrů v pořádku? Dostal jsem nějaká varování? • Mají parametry přípustné hodnoty? • Dávají mi hodnoty odhadnutých parametrů smysl? • Jak vypadají směrodatné chyby odhadu parametrů? • Jak model sedí na data? Shoda modelu s daty • Dobrá shoda s daty ještě neznamená, že váš model je „nejlepší“ nebo „správný“ • Reziduální korelační / kovarianční matice • Chí-kvadrát modelu, c2 M= (N-1)FML se stupni volnosti jako má model • Podíl c2 M k počtu stupňů volnosti (c2/df ratio) – více konvencí • RMSEA, TLI, CFI, SRMR – indexy fitu (inkrementální, absolutní, reziduální) • Indexy založené na teorii informace – AIC a BIC RMSEA • RMSEA = Root Mean Square Error of Approximation • Steiger & Lind, 1980; Browne & Cudeck, 1992 RMSEA = 𝐹0 𝑑𝑓 , kde ...df je počet stupňů volnosti modelu ... 𝐹0 = ෠𝐹 − 𝑑𝑓 𝑁−1 , kde ෠𝐹 je hodnota diskrepanční funkce RMSEA • Browne & Cudeck, 1992 o hodnotách RMSEA: • < .05 -- close fit • .05 - .08 -- good fit • .08 - .10 -- acceptable fit • > .10 -- unacceptable fit • Konfidenční interval RMSEA je důležitější, než bodový odhad TLI • Tucker-Lewis Index: 𝜒0 2 /𝑑𝑓0 − (𝜒 𝑚 2 /𝑑𝑓𝑚) 𝜒0 2 /𝑑𝑓0 − 1 • Srovnání odhadnutého modelu (m) s nulovým modelem (0) • Vysoce korelovaný s CFI, TLI je přísnější • Doporučené hodnoty: >.95 excellent, >.90 good Informační kritéria • Založeny na deviance – funkci hodnoty diskrepanční funkce • Deviance = -2*log-likelihood • Kombinují shodu modelu s daty (deviance) s komplexitou modelu (počtem parametrů) • Akaike’s Information Criterion (AIC): 𝐴𝐼𝐶 = 2𝑘 + 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒 • Bayesian (Schwarz) Information Criterion (BIC): 𝐵𝐼𝐶 = 𝑙𝑛 𝑛 𝑘 + 𝐷𝑒𝑣𝑖𝑎𝑛𝑐𝑒