Úvod do strukturního modelování PSY028_E – Statistická analýza dat v psychologii Blok 2 – Faktorová analýza Program •1. 09:00 – 12:00 : Uvedení do faktorové analýzy •2. 12:00 – 13:00 : Přestávka •3. 13:00 – 15:00 : Faktorová analýza v R / lavaan Navázat na znalost grafického znázornění, popsat, co vidí v té části modelu, které se teď budeme věnovat Dva základní pojmy • •Manifestní proměnná (MV) – proměnná, kterou lze přímo měřit či pozorovat • •Latentní proměnná (LV) – proměnná, kterou nelze přímo měřit či pozorovat – hypotetický konstrukt. Faktory v rámci FA jsou právě latentními proměnnými. Tedy – faktor je stále nějaká proměnná a různí lidé „mají“ své skóry na této proměnné (základní předpoklad) Základní principy FA •Jaká je typická podoba dat v případě faktorové analýzy? • •Multivariační data – data pro soubor osob, větší množství manifestních (měřených, pozorovaných) proměnných (např. skóry z testů, škál, položek...) • • Datová matice: Co sloupec, to proměnná Co řádek, to osoba Základní principy FA •Datová matice: • • • • X = N řádků (osob) • • Skór osoby i na proměnné j • x11 x12 x1p xij xN1 xN2 xNp p sloupců (proměnných) • • • •R: 1 r12 r13 r1p r21 1 r23 r2p r32 r32 1 r3p rkj rjk rp1 rp2 rp3 1 •Cílem faktorové analýzy je odhalit a pochopit strukturu, která „způsobuje“ korelace mezi manifestními proměnnými – a to pomocí faktorů. • •Základní princip – v rámci domény existuje (relativně) malé množství faktorů, které ovlivňují (relativně) velké množství manifestních proměnných a tím způsobují mezi těmito manifestními proměnnými korelace (kovariance) •Korelace mezi dvěma manifestními proměnnými je způsobena tím, že tyto manifestní proměnné jsou funkcemi jednoho nebo více společných faktorů Totéž platí pro kovariance! Jen počet unikátních prvků je p*(p+1)/2 • • • •To, jak moc ten který faktor ovlivňuje danou manifestní proměnnou, je reprezentováno faktorovými náboji (factor loadings). • •Hodnoty těchto faktorových nábojů představují sílu lineárního vztahu mezi faktorem a manifestní proměnnou. Faktorové náboje jsou ekvivalentní regresním koeficientům – faktor je nezávislá proměnná a MV je závislá proměnná • •Celkový obraz faktorových nábojů nám napomáhá v interpretaci podstaty faktoru Model dat ve faktorové analýze Model dat ve faktorové analýze •Rovnice modelu vypadá jako rovnice pro vícenásobnou lineární regresi •Manifestní proměnné jsou závislými proměnnými •Faktory jsou nezávislými proměnnými •Faktorové náboje jsou regresními koeficienty • • •Faktorový model je jako sada vícenásobných lineárních regresí, kde nezávislé proměnné jsou nepozorované a neměřené (...a nepozorovatelné a neměřitelné) • • •Ve světě faktorové analýzy rozlišujeme dvě situace: • •Explorační (exploratory / unrestricted) FA: • Nemáme žádnou (nebo jen velmi mlhavou) představu o tom, kolik faktorů a jakého charakteru je „za daty“ •Konfirmační (confirmatory / restricted) FA: • Máme celkem jasnou představu o tom, kolik faktorů a jakého charakteru je „za daty“ • •...teoretický model, který v obou případech používáme, je totožný! •...v kurzu se budeme věnovat pouze konfirmační FA • Model dat ve faktorové analýze Kovarianční struktura 1.Skóry na obecných faktorech a unikátních faktorech jsou nezávislé a tedy spolu nekorelují. 2.Skóry na jednotlivých unikátních faktorech jsou rovněž nezávislé a tedy spolu nekorelují. 3.Skóry na obecných a unikátních faktorech jsou standardizovány tak, aby jejich průměr byl 0. Kovarianční struktura Identifikace •Vše, co bylo včera řečeno i identifikaci, nadále platí – počet odhadovaných parametrů nemůže být větší, než počet „kousků informace“ •To však nutně nestačí k tomu, aby byl model identifikovaný • •Rozptyl faktoru je nutno nějak určit – 3 způsoby •(Omezit rozptyl faktoru, omezit 1 náboj přímo, omezit 1 náboj nepřímo) • •Umožnit unikátní řešení • • • Model s 3MV a 1LV je právě identifikovaný, bez dalších omezení, model s 2MV a 1LV je neidentifikovaný, pokud neuvalíme další restrikce. Model s korelovanými rezidui (všemi) Model s 2 faktory a jejich MV rezidua korelují CFA model CFA model •Tato omezení jsou zdaleka nejčastěji jedna a tatáž – předem určujete, které parametry (faktorové náboje, korelace mezi faktory) nabývají hodnoty 0. • •Máte jasno ohledně jak počtu, tak charakteru faktorů -- vaše hypotéza se týká toho, kolik tušíte faktorů a jaké proměnné by měl ten který faktor ovlivňovat, a jaký je vztah jednotlivých faktorů mezi sebou • CFA model CFA model CFA model CFA model CFA model •Kolik máme stupňů volnosti? • •Nejdřív pojďme spočítat volně odhadované parametry: • 6 faktorových nábojů + 6 reziduálních rozptylů + 1 korelace mezi faktory = 13 parametrů k odhadnutí • •Naše data, matice korelací mezi pozorovanými proměnnými, je 6 x 6 korelační matice (může být i kovarianční, ale...), která obsahuje [6 * (6-1)]/2 = 15 ne-redundantních prvků – „kousků informace“ •Počet stupňů volnosti je tedy 15 – 13 = 2 • • CFA model •Když odhadnu model: •Vypadají odhady parametrů v pořádku? Dostal jsem nějaká varování? •Mají parametry přípustné hodnoty? •Dávají mi hodnoty odhadnutých parametrů smysl? •Jak vypadají směrodatné chyby odhadu parametrů? • •Jak model sedí na data? • • Shoda modelu s daty •Dobrá shoda s daty ještě neznamená, že váš model je „nejlepší“ nebo „správný“ • •Reziduální korelační / kovarianční matice •Chí-kvadrát modelu, c2M= (N-1)FML se stupni volnosti jako má model •Podíl c2M k počtu stupňů volnosti (c2/df ratio) – více konvencí •RMSEA, TLI, CFI, SRMR – indexy fitu (inkrementální, absolutní, reziduální) •Indexy založené na teorii informace – AIC a BIC RMSEA RMSEA •Browne & Cudeck, 1992 o hodnotách RMSEA: • •< .05 -- close fit •.05 - .08 -- good fit •.08 - .10 -- acceptable fit •> .10 -- unacceptable fit • •Konfidenční interval RMSEA je důležitější, než bodový odhad TLI Informační kritéria