Konfirmační FA PSY259 – ZÁKLADY PSYCHOMETRIKY (SEMINÁŘ 5) 20. 4. 2020 | ADAM ŤÁPAL Specifika Konfirmatorní FA (CFA) • V případě EFA (většinou) nemáme jasnou představu o faktorové struktuře • Chceme získat lepší představu o počtu a charakteru latentních proměnných • Necháme si odhadnout faktorový model s m faktory a získáme datům nejlépe vyhovující matici faktorových nábojů, 𝜦 • Abychom mohli interpretovat význam jednotlivých faktorů, je většinou třeba využít rotace za účelem získání jednoduché struktury (simple structure) • EFA je data-driven Specifika Konfirmatorní FA (CFA) • V případě CFA máme již existující hypotézu o počtu a charakteru faktorů • Tato hypotéza je vlastně představou o nějakém teoretickém modelu, který pomocí latentních proměnných vysvětluje kovariance mezi manifestními proměnnými • Díky této hypotéze můžeme faktorový model nějak blíže specifikovat • …model specifikujeme tím, že nějakým způsobem omezujeme parametry modelu • Žádnou rotaci již neprovádíme, jednoduché struktury dosahujeme přímo sami • CFA je theory-driven Specifika Konfirmatorní FA (CFA) • V případě CFA máme již existující hypotézu o počtu a charakteru faktorů • Tato hypotéza je vlastně představou o nějakém teoretickém modelu, který pomocí latentních proměnných vysvětluje kovariance mezi manifestními proměnnými • Díky této hypotéze můžeme faktorový model nějak blíže specifikovat • …model specifikujeme tím, že nějakým způsobem omezujeme parametry modelu • Žádnou rotaci již neprovádíme, jednoduché struktury dosahujeme přímo sami • CFA je theory-driven Specifika Konfirmatorní FA (CFA) • Jak již několikrát padlo, statistický model je v případě EFA i CFA totožný • V EFA si řekneme o počet faktorů, ale všechny faktorové náboje (𝜆) jsou volně odhadovány (jejich hodnota není námi omezená), zároveň platí některé předpoklady (rozptyl faktorů je 1, unikátní faktory mezi sebou nekorelují, …) • V CFA máme jasnou představu o počtu faktorů a o hodnotě některých parametrů • …typicky je to “pouze” představa o tom, které faktorové náboje 𝜆 jsou nulové, případně které korelace mezi společnými / obecnými (common) faktory jsou nulové Hypotézy v CFA • Hypotéza o faktorové struktuře a charakteru faktorů • Položky 1 - 4, které mají měřit vizuální percepci, jsou syceny pouze faktorem 1 (= schopností vizuální percepce) • Položkz 5 - 8, které mají měřit sluchovou diferenciaci, jsou syceny pouze faktorem 2 (= schopností sluchové diferenciace) Faktor 1 Faktor 2 P1 ? 0 P2 ? 0 P3 ? 0 P4 ? 0 P5 0 ? P6 0 ? P7 0 ? P8 0 ? 0 = parametr je omezen na nulu ? = hodnota parametru je volně odhadována Hypotézy v CFA • Omezení některých faktorových nábojů na 0 je součástí CFA zpravidla vždy • Naše apriorní hypotézy ale mohou nabývat i jiných podob: • Omezení parametru korelace mezi faktory (Vizuální percepce a sluchová diferenciace spolu nekorelují) • Omezení počtu faktorů (Moje teorie tvrdí, že neuroticismus a anxiozita jsou jedna a ta stejná věc) • Jiná omezení parametrů modelu (Faktorový náboj všech položek v testu X je stejný) Parametry CFA modelu • Common Factor Model: 𝜮 = 𝜦𝜱𝜦! + 𝑫 𝝍 • Model je reprezentován třemi maticemi parametrů: • Λ (lambda) je matice faktorových nábojů (apostrof značí transpozici) • Φ (phi / fí) je matice korelací / kovariancí mezi (obecnými) faktory. • Dψ (D-psi / D-psí) je matice rozptylů a korelací / kovariancí unikátních faktorů Parametry CFA modelu • Parametry uvnitř matic mohou nabývat třech podob: • Volně odhadované parametry (free parameters) – neznámé a odhadované • Zafixované parametry (fixed parameters) - jejich hodnota je pevně nastavena (typicky na 0, u nábojů a korelací, nebo na 1, u rozptylů) • Omezené parametry (constrained parameters) - jejich hodnota je omezena hodnotou nějakého jiného parametru (např. „položky 1 a 2 mají shodný faktorový náboj“) Hypotézy v CFA • Apriorní hypotézy o modelu tedy „překládáme“ do různých apriorních omezení modelových parametrů • Na základě toho, jak dobře výsledný model sedí na data, usuzujeme na plauzibilitu naší apriorní hypotézy • Je v pořádku (dokonce je to v mnoha případech žádoucí) mít několik „soupeřících“ apriorních hypotéz. Výsledné modely pak můžeme srovnat. • CFA může svádět k tomu, abyste ji používali data-driven způsobem a vaše hypotézy ad-hoc upravovali. To je nebezpečné, protože to může vést k tomu, že váš „konfirmatorní“ model bude pouhým statistickým artefaktem Příklad v JASPu • Klasický dataset Holzinger & Swineford (aka Svinibrod), 1939 • 301 dětí, skóry z 9 testů: • Visual Perception, Cubes, Lozenges • Paragraph Comprehension, Sentence Completion, Word Meaning • Speeded Addition, Speeded Counting, Speeded Discrimination Zhodnocení modelu v CFA • Model reprezentuje naši hypotézu o faktorové struktuře. Plauzibilitu hypotézy můžeme vyhodnotit třemi způsoby (které se navzájem doplňují): 1) Dávají hodnoty volně odhadnutých parametrů teoretický smysl? 2) Sedí model dobře na data? 3) Jak naše hypotéza obstojí ve srovnání s konfliktními hypotézami? Shoda modelu s daty v CFA • Podobně jako v EFA, ovšem s více možnostmi. • Vždy jde však o variaci na to stejné – „Jak moc se liší data očekávaná na základě modelu od toho, co jsme skutečně pozorovali?“ • Realita a model se budou téměř vždy nějak lišit. Je už ale odlišnost dost velká na to, aby nám to začalo vadit? • Reziduální matice (rozdíl mezi pozorovanými a modelem implikovanými korelacemi/kovariancemi – na rozdíl od EFA toto už JASP dokáže, ale umí pouze kovarianční matici) • Test of perfect fit (𝜒! s df stupni volnosti) – platí stejná kritika, jako u EFA. Nepoužívejte. • 𝝌 𝟐 / df ratio < 2 – zastaralé doporučení, nepoužívejte. …testová statistika 𝜒! se však využívá v řadě indexů shody modelu s daty (indexů fitu) Indexy fitu v CFA Rozlišujeme: 1) Absolutní indexy – o jak moc je náš model horší než „perfektní“ model? (RMSEA, …) 2) Inkrementální (relativní) indexy - o jak moc je náš model lepší než nejhorší možný model? (TLI, CFI, …) 3) Reziduální indexy – sumarizují obsah reziduální matice (RMR, SRMR, …) …čerpat informaci bychom měli ideálně z všech tří druhů indexů. RMSEA a TLI / CFI • Už jsme si o nich pověděli během semináře o EFA • RMSEA je absolutním indexem, bere v potaz nejen shodu modelu s daty, ale také komplexitu modelu (počet volně odhadovaných parametrů) • Totéž platí pro TLI, s tím rozdílem, že TLI je inkrementálním indexem • CFI (Comparative Fit Index) je příbuzný TLI, platí pro něj stejná doporučení a tyto indexy zpravidla velmi silně korelují. CFI však méně penalizuje za komplexitu modelu, doporučujeme tedy používat spíše TLI. V každém případě si však vyberte jen jeden J SRMR • Standardized Root Mean Square Residual • Zjednodušeně řečeno jde o průměrnou velikost rezidua v reziduální matici • Hodnoty 0 nabývá pouze v případě, že model sedí perfektně na data ( = reziduální matice obsahuje samé nuly, nebo hodnoty velmi blízko 0) • < .05 optimální, < .08 dobré, > .1 špatné Srovnávání modelů • Můžeme mít více konfliktních hypotéz. Z nich plynoucí modely můžeme mezi sebou srovnat. • Jestliže jsou modely vnořené (nested), můžeme je porovnat přímo pomocí 𝝌 𝟐 testu • Testová statistika je pak Δ𝜒! s počtem stupňů volnosti Δ𝑑𝑓 • Modely jsou vnořené, jestliže volné parametry jednoho modelu jsou podmnožinou volných parametrů druhého modelu (např. jediný rozdíl mezi dvěma modely je ten, že Model 1 fixuje korelaci mezi dvěma faktory na 0, kdežto pro Model 2 je tento parametr volně odhadován) Srovnávání modelů • Jestliže modely vnořené nejsou, můžeme je porovnávat pouze za pomoci indexů fitu a nebo informačních kritérií • AIC = Akaike Information Criterion • BIC = Bayesian (Schwarz) Information Criterion • Informační kritéria berou v potaz komplexitu modelu a mohou být použity pouze pro modely, které jsou odhadnuty na stejných datech • Relativně menší hodnota informačního kritéria = preferovanější model Další témata • Standardizované faktorové náboje • Modifikační indexy • Estimátory – ML, ULS, GLS, DWLS • Identifikace faktoru • Kombinace EFA a CFA Paralelní testy / položky • CTT předpoklad praví, že položky v testu jsou paralelními položkami – zaměnitelnými měřítky. Paralelní položky jsou takové, které mají shodný systematický i chybový rozptyl • (až na to, že nic takového v psychologii neexistuje) • Uvažujeme tedy o míře paralelnosti: 1) Kongenerické položky (vybrány ze stejné domény a lokálně nezávislé) 2) Tau-ekvivalentní (shodné faktorové náboje položek) 3) Paralelní (shodné průměry – položky jsou stejně obtížné) 4) Striktně paralelní (shodné reziduální rozptyly) FA a reliabilita • Cronbachovo alfa podhodnocuje, nejsou-li položky paralelní • Spearman-Brownův vzorec nadhodnocuje, nejsou-li položky striktně paralelní • FA je tedy možné využít pro (lepší) odhad vnitřní konzistence, který není zatížen těmito předpoklady. K tomuto účelu se využívá rodina koeficientů omega • Tyto koeficienty (nejčastěji se setkáte s McDonaldovým hierarchickým omega) lze spočítat pouze na základě faktorové analýzy • Jejich interpretace je shodná s interpretací jiných koeficientů vnitřní konzistence