Přednáška 5: Model klasické testové teorie 16. 10. 2023 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler Klasická testová teorie (CTT) Tři pilíře CTT (Traub, 1997): ◦ Chyby I. typu, chyba měření jako náhodná veličina, korelace. Koeficient proti oslabení korelace (Spearman, 1904). ◦ Vztah reliability, chyby měření a koncept paralelních testů. ◦ Attenuation formula, 𝑟𝑝𝑞 ∗ = 𝑟 𝑝𝑞 𝑟 𝑝𝑝′ 𝑟 𝑞𝑞′ . Vývoj CTT byl prakticky ukončen do 60. let: Lord a Novick (1968). ◦ Od té doby jen drobná zlepšení. Klasická testová teorie (CTT) Důležitým impulzem byla Fergusonova komise (1932– 1940). ◦ Striktní požadavek aditivity (a zřetězení). ◦ Psychologové zřetězení nedokázali → měření v psychologii není vědecké. ◦ Což ale neznamená, že to není geniální nápad!  ◦ Reakcí byla Stevensova operační teorie měření, která rozšířila definici měření: „...measurement, in the broadest sense, is defined as the assignment of numerals to objects and events according to rules.“ (Stevens, 1946, s. 677). Klíčový pojem je „matching“. ◦ Ve skutečnosti zjednodušení konsenzu z přírodních věd: „Measurement is a method of assigning numbers to magnitudes“ (např. Helmholtz, 1887). ◦ Klasické měření: Existuje magnituda, kterou kvantifikujeme pomocí měřicího nástroje (realismus). ◦ CTT: Magnitudu „vytváříme“ s pomocí pravidla bez ohledu na povahu jevu (operacionalismus). von Helmholtz, H. (1887/1971). An Epistemological Analysis of Counting and Measurement. In R. Kahl (ed.), Selected Writings of Hermann von Helmholtz. Wesleyan University Press. Pro interpretaci doporučuji: Michell, J. (1993). The origins of the representational theory of measurement: Helmholtz, Hölder, and Russell. Studies in History and Philosophy of Science Part A, 24(2), 185–206. doi:10.1016/0039-3681(93)90045-l Odbočka: „assignment of numerals“ Stevens, S. S. (1946). On the Theory of Scales of Measurement. Science, 103(2684), 677–680. Ferguson, A., Myers, C. S., Bartlett, R. J., Banister, H., Bartlett, F. C., Brown, W., ..., & Tucker, W. S. (1940). Final report of the committee appointed to consider and report upon the possibility of quantitative estimates of sensory events. Report of the British Association for the Advancement of Science, 2, 331–349. Rozdělení CTT a reprezentačního modelu Fergusonova komise měla za následek rozdělení měření v sociálních vědách do dvou směrů. 1. Klasická testová teorie (CTT) ◦ Stevens (1946), Lord a Novick (1968) ◦ „Měření je přiřazování čísel jevům podle pravidel.“ Typicky: sečteme/zprůměrujeme body/položky. ◦ Nezabývá se algebraickou strukturou škály, aditivitou. 2. Reprezentační model měření. ◦ A zejména teorie spojitého měření (CM; Debreu, 1960; Luce & Tukey, 1964). ◦ Pomocí aditivních operací vytváří algebraickou strukturu z nealgebraických dat. ◦ Jinými slovy: dokáže vytvořit spojitou „míru“ v případě, že pozorujeme pouze seřazená data. ◦ Data musí odpovídat modelu. Využití i realistickými teoriemi (Raschův model). ◦ Existuje-li latentní proměnná, která se manifestuje určitým způsobem, Raschův model bude spojitým měřením a dobře popíše data. ◦ Popsal-li Raschův model dobře data, latentní proměnná může, ale nemusí existovat. Aby šlo o CM, je nutné splnit další podmínky. ◦ Nepopsal-li Raschův model dobře data, latentní proměnná může, ale nemusí existovat, nicméně nepůjde o CM. Rozdělení CTT a reprezentačního modelu Před Fergusonovou komisí (cca do 30. let): Počátky CTT. ◦ Pouhá imitace přírodních věd. Primitivní statistika, bez zájmu o epistemologii. ◦ Naivní důraz na paralelní testy a opakování procedury. Stevens (1946): Doplnění CTT o epistemologická východiska. ◦ „Vysvětlení“ existujícího principu CTT skrze logický pozitivismus. Nové otázky... 50.-60. léta: Pokus o matematické vysvětlení nastolených otázek. ◦ 1. cesta: Kodifikace CTT a GT. Protože CTT nefungovala na úrovni položek, impulz pro vznik IRT. ◦ 2. cesta: Reprezentační model měření a Teorie spojitého měření. Nové teorie (cca od 70. let): modely s latentními proměnnými Syntéza (cca od 80. let): některé postupy se ukázaly být ekvivalentními. ◦ Raschův model je IRT modelem i modelem spojitého měření. Současnost: „mumifikace a vykopávky“. Kodifikace postupů vedla k zapomenutí východisek. Odbočka: škálování V 1. pol. 20. stol. se psychologie hodně zaměřovala právě na proces, jak „vznikají“ čísla při měření. Jak z pozorování vyrobit „škálu“? ◦ U jednoduchých psychofyzikálních dat jasné, problém je s komplexnějšími konstrukty. Řada různých „škál“: Hayes a Patterson (1921), Bogardus (1925), Thurstone (1928), Likert (1932), Guttman (1944), Osgood (1957) a další. Od 50. let však minimální další rozvoj. ◦ Etablování stávajících škál. ◦ Rozvoj faktorové analýzy (omezené využití u některých škál a naopak realistické vysvětlení toho, proč škály fungují). ◦ Pokročilejší postupy jsou komplikované a nemají všeobecné využití. ◦ Rozšiřování měření v psychologii vedl ke standardizaci postupů. CTT vznikla na základech přírodních věd Přírodní vědy: existující atribut opakovaně měříme tím samým měřicím nástrojem. ◦ Očekávaná hodnota atributu je průměr pozorování: E 𝑥 = σ 𝑖=1 𝑁 𝑥 𝑖 𝑁 ◦ Chyba měření je chybou odhadu průměru: 𝑆𝐸 = 𝑠 𝑥 𝑁 (pokud 𝑠 𝑥 odhadujeme z dat, pak má odhad Studentovo t-rozložení). Předpoklad: Rozložení odhadu je přibližně normálně rozložené (centrální limitní teorém – potřebujeme tedy alespoň cca 30 pozorování). V psychologii nemůžeme měřit tolikrát. Z toho důvodu CTT zavádí koncept paralelních testů s několika přiměřenými předpoklady. ◦ CTT neřeší, jak tyto paralelní testy vznikly (tradičně ale součet položek). Problém škálování. Ústředním konceptem v CTT je potom reliabilita. Reliabilita v CTT CTT je lineární model – všechny vztahy atributu, naměřených hodnot a chyby jsou lineární. Základní teorém CTT je tedy lineární funkce: 𝑋 = 𝜏 + 𝑒 Protože cor 𝑋, 𝑒 = 0, tak platí 𝜎 𝑥 2 = 𝜎𝜏 2 + 𝜎𝑒 2 ◦ 𝜎 𝑎+𝑏 2 = 𝜎 𝑎 2 + 𝜎 𝑏 2 + 2 ∙ cov 𝑎, 𝑏 . Pomůcka: 𝑎 + 𝑏 2 = 𝑎2 + 𝑏2 + 2𝑎𝑏. Reliabilita je pak definovaná jako rozptyl měření vysvětlený pravým skórem: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎 𝑥 2 = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 = 1 − 𝜎𝑒 2 𝜎 𝑥 2 Lze jednoduše dokázat, že reliabilita je zároveň korelací dvou paralelních testů: 𝑟 𝑥𝑥′ = cor 𝑥, 𝑥′ ◦ To proto, že cov 𝑥, 𝑥′ = 𝜎𝜏 2 → cor 𝑥, 𝑥′ = cov 𝑥,𝑥′ 𝜎 𝑥 𝜎 𝑥′ = cov 𝑥,𝑥′ 𝜎 𝑥 𝜎 𝑥 = 𝜎 𝜏 2 𝜎 𝑥 2 = 𝑟 𝑥𝑥′. Paralelní testy „Dobré“ měření je takové, kdy různí lidé v různých časech dojdou různými nástroji ke stejným naměřeným hodnotám, pokud se míra samotného objektu nezměnila. Paralelní testy/měření jsou takové, pro které platí: ◦ A. Pravý skór je v paralelních testech a pro každý měřený subjekt stejný ◦ 𝑇 = E 𝑋 = lim 𝑛→∞ σ𝑖=1 𝑛 𝑋 𝑖 𝑛 ; důsledkem je shodný rozptyl pravých skórů. ◦ B. Chybový rozptyl je v paralelních testech a pro každý subjekt stejný. ◦ Důsledkem je navíc shodný rozptyl pozorovaných skórů obou testů. Korelace paralelních testů je pak reliabilita: 𝑟 𝑥𝑥′ = cor 𝑥, 𝑥′ . Paralelní testy Potíž v sociálních vědách je ale ten, že paralelní testy neexistují. ◦ Jde jen o hypotetický koncept (model). Položky se liší... ◦ ... svou obtížností, ◦ ... těsností vztahu s univerzem, ◦ ... mírou náhodné chyby... ... a respondenti se rovněž napříč měřeními vyvíjejí. Proto uvažujeme spíše o „míře paralelnosti“. CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝑖 𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒𝑖 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní ◦ 𝑋𝑖𝑝 – pozorované skóre osoby 𝑝 na pol. 𝑖 ◦ 𝑖𝑖, 𝑎𝑖 – intercept a faktorový náboj pol. 𝑖 ◦ 𝜏 𝑝 – pravé skóre osoby 𝑝 ◦ 𝑒𝑖𝑝 – náhodná chyba osoby 𝑝 na pol. 𝑖 (reziduum) ◦ 𝑒𝑖𝑝~N 0, var 𝑒𝑖 – tato chyba pochází z normálního rozložení s průměrem 0 a rozptylem var 𝑒𝑖 CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝑖 𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒𝑖 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒𝑖 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. 𝑎𝑖 = 𝑎 ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. 𝑎𝑖 = 𝑎, var 𝑒𝑖𝑝 = var 𝑒 ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖 + 𝑎𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. 𝑎𝑖 = 𝑎, var 𝑒𝑖𝑝 = var 𝑒 , 𝑖𝑖 = 𝑖 ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní CTT: Paralelní testy Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(4), 651–682. https://doi.org/10.1177/1094428116656239 Paralelní testy: terminologie původní (Lord a Novick, 1968) alternativní (např. Cho, 2016) náboj chybový rozptyl intercept kongenerické kongenerické × × × esenciálně tau-ekvivalentní tau-ekvivalentní ✔ × × — (později tau-ekvivalentní) paralelní ✔ ✔ × paralelní striktně-paralelní ✔ ✔ ✔ Reliabilita „The term reliability has been used in two ways in the measurement literature. First, the term has been used to refer to the reliability coefficients of classical test theory, defined as the correlation between scores on two equivalent forms of the test, presuming that taking one form has no effect on performance on the second form. Second, the term has been used in a more general sense, to refer to the consistency of scores across replications of a testing procedure, regardless of how this consistency is estimated or reported (e.g., in terms of standard errors, reliability coefficients per se, generalizability coefficients, error/tolerance ratios, item response theory (IRT) information functions, or various indices of classification consistency).“ (AERA, 2014, s. 33) AERA, APA, & NCME. (2014). Standards for Educational and Psychological Testing. American Educational Research Association. (Dvakrát) dvě pojetí reliability Stabilita měření (operacionalismus). ◦ Bez ohledu na to, jaký je „význam“ měření. ◦ CTT. Vysvětlený rozptyl (realismus). ◦ Vysvětlený rozptyl čím? ◦ Co považujeme za pravé skóre? ◦ Může sloužit jako estimátor korelace paralelních testů, nebo mít svůj význam. ◦ Někdy tzv. faCTT. → Klasická testová teorie. ◦ Dnešní přednáška. Relativní srovnání ◦ CTT, GT. ◦ Na obtížnosti položek nám nezáleží. Absolutní srovnání. ◦ GT, shoda posuzovatelů v CTT. ◦ Položky jsou vybrané z univerza všech pol. ◦ Záleží, zda máme snadné či těžké položky. → Teorie zobecnitelnosti. ◦ Příští přednáška. Dvě pojetí reliability v CTT 1. Dimension-free reliability (důraz na korelaci paralelních testů). Operacionalismus. ◦ Odhad vztahu (korelace) dvou paralelních měření týmž testem bez ohledu na to, co test měří. ◦ split-half, alfa, celková omega, glb 2. Model-based reliability (důraz na vysvětlený rozptyl). Realismus. ◦ Odhad vztahu (vysvětleného rozptylu) měřeného atributu a pozorovaného skóru. ◦ Rodina koeficientů omega (McDonaldova hierarchická omega). ◦ „Realistická invaze do operacionalistické CTT“  Podrobně viz: ◦ Bentler P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency Reliability. Psychometrika, 74(1), 137–143. doi:10.1007/s11336-008-9100-1 ◦ Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(4), 651–682. doi:10.1177/1094428116656239 Dvě pojetí reliability v CTT Reliabilita jako korelace: 𝑟 𝑥𝑥′ = cor 𝑥, 𝑥′ Ryzí logický pozitivismus. Reliabilita vyjadřuje stabilitu odhadu pravého skóre nehledě na to, co toto pravé skóre je nebo jak vzniklo. Reliabilita jako vysvětlený rozptyl: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎 𝑥 2 Toto už není čistá CTT – ušpiněno modelem s latentními proměnnými. Něco vysvětlený rozptyl muselo „způsobit“. ◦ Jak velkou roli to „něco“ má na vznik pozorovaného skóre? Za dodržení smysluplných podmínek jsou obě otázky ekvivalentní. ◦ Zejména lokální nezávislost (jednodimenzionalita) položek/konstruktu. Systematický přístup k reliabilitě Cho (2016) Systematický přístup k reliabilitě Cho (2016) Odbočka: Kde se bere chyba měření? Ad hoc notace v tomto příkladu: Pozorovaná rychlost 𝑣 konkrétního člověka se od jeho „pravé rychlosti“ E 𝑣 liší o 𝑒 𝑣. Směrodatná odchylka 𝑒 𝑣 je standardní chybou měření rychlosti, 𝜎𝑣. Měříte průměrnou rychlost běhu na 1 km s výsledkem 4 minuty (tedy rychlostí 15 Τ𝑘𝑚 ℎ = 4,17 Τ𝑚 𝑠. Jaký je postup výpočtu chyby měření 𝜎𝑣 této rychlosti 𝑣? Postup: ◦ Vzdálenost jsme měřili s chybou 𝑒 𝑑 a čas s chybou 𝑒𝑡. Protože 𝑣 = 𝑠 𝑡 , platí 𝑒 𝑣 = 𝑒 𝑠 𝑒 𝑡 . ◦ Výsledné rozložení není definované, ale bude přibližně normální a 𝜎𝑣 = 𝑠 𝑡 𝜎𝑠 2 𝑠2 + 𝜎𝑡 2 𝑡2 – čím menší chyby v poměru k naměřeným hodnotám, tím menší chyba. ◦ Pokud měříme s malou chybou, řekněme 𝜎 𝑑 = 0,5𝑚 a 𝜎𝑡 = 0,1𝑠, pak 𝝈 𝒗 = 𝟎, 𝟎𝟎𝟐𝟕 Τ𝒎 𝒔. Řekněme, že „měříte“ podíl správných odpovědí na 30 položek v testu. „Naměříte“ 20/30. ◦ Zdánlivě těch 30 i 20 máte „změřené“ přesně. ◦ V čem se obě situace liší? Je rozdíl v průměrné rychlosti jednoho pokusu a běžné (průměrné) průměrné rychlosti (tedy schopnosti běhat) kilometrové tratě. Odbočka: Kde se bere chyba měření? V psychologii nás nezajímá chyba měření konkrétního výkonu... ◦ (ta je zcela zanedbatelná) ... ale průměrná hodnota výkonu napříč paralelními situacemi (CTT) nebo úroveň latentní schopnosti (realismus), která výkon způsobuje. ◦ Ta je výrazně větší, protože pozorovaný výkon napříč situacemi značně kolísá. Odbočka: Kde se bere chyba měření? Reliabilita příkladu s během tedy bude 𝑟 𝑣𝑣′ = cor 𝑣, 𝑣′ = 1 − 𝑅𝑀𝑆𝐸 𝑣 2 𝜎 𝑣 2 . ◦ Čím více bude kolísat rychlost běhání napříč pokusy (𝑅𝑀𝑆𝐸 𝑣 2 ), tím nižší reliabilita bude. ◦ Čím více se lidé liší ve schopnosti běhat a tedy i pozorované výkony (𝜎𝑣 2 ), tím vyšší reliabilita bude. ◦ Pozn.: V tomto CTT designu neodlišíme zdroje chyby (kolísání výkonu, nepřesnost měření délky a času). To bude řešit teorie zobecnitelnosti (GT). Úkol: Za jakých okolností se může lišit „model based“ a „dimension-free“ reliabilita? Chceme zjistit schopnost rychle uběhnout 1 km. Na výkon mají vliv ale i další proměnné. ◦ Měříme třeba rychlost na 500 metrech. ◦ Kvalita obuvi, náročnost terénu. ◦ Motivace, výše odměny... Pro přesný odhad model-based chyby potřebujeme s těmito dalšími proměnnými manipulovat. Reliabilita... jakého skóre? CTT není závislá na způsobu vzniku pozorovaného skóre. ◦ Funguje stejně, jde-li o součet položek, naměřený čas, či cokoli jiného. Způsob konstrukce skóre je zcela arbitrární. Postupy založené na položkách (alfa, omega) a další „spodní hranice reliability“ ale při výpočtu předpokládají konkrétní způsob vzniku skóru. ◦ Typicky jde o odhady reliability „součtu položek“. ◦ Koeficienty lze ale snadno upravit do podoby reliability nějakého váženého součtu a podobně. Ve většině přednášky předpokládáme, že skóre vzniká jako součet položek. ◦ A tedy mluvíme o „reliabilitě součtu položek“. Spodní hranice reliability Lower-bound of reliability. Zpravidla předpokládáme, že unikátní rozptyl položek je chyba (e). Spodní hranice reliability Lower-bound of reliability. Zpravidla předpokládáme, že unikátní rozptyl položek je chyba. Unikátní rozptyl U ale lze rozdělit na: ◦ specifický S (systematický pro daného člověka) ◦ chybový e (náhodný) Zatímco S přispívá ke korelaci paralelních testů, chyba e nikoli. Tyto složky ale nelze oddělit při jediné administraci testu a S je považován celý za chybu. ◦ Proto v longitudinálních SEM modelech korelovaná rezidua v čase. Vnitřní konzistence formativního měření (Takto konstruovaný model se někdy označuje jako Raykovovo omega.) Vnitřní konzistence formativního měření Koeficienty založené na paralelních testech Split-half přístupy Alfa Split-half Reliabilita jako stabilita. Problémy se split-half: ◦ Nelze ověřit předpoklady paralelnosti. ◦ Test je zkrácený na polovinu. ◦ Existuje velké množství rozdělení testu na dvě poloviny. ◦ Různá rozdělení → různé odhady. ◦ Tohle byl jeden z Cronbachových motivů pro alfu (která je průměrem split-half reliabilit). Split-half SPEARMANŮV-BROWNŮV PŘÍSTUP Spearmanův-Brownův věštecký vzorec: 𝑟𝑥𝑥′ ∗ = 𝑁𝑟 𝑥𝑥′ 1 + 𝑁 − 1 𝑟 𝑥𝑥′ ◦ N – změna délky testu, v případě split-half N=2: 𝑟𝑥𝑥′ ∗ = 2𝑟 𝑥𝑥′ 1 + 𝑟 𝑥𝑥′ Předpoklad: paralelní poloviny. ◦ Při nedodržení příliš „optimistický“, může nadhodnocovat nebo podhodnocovat. GUTTMANOVA 𝜆4 Guttman (1945) publikoval λ1–6: 𝜆4 = 4𝜎 𝑝𝑞 2 𝜎 𝑥 2 ◦ 𝜎 𝑝𝑞 2 – kovariance polovin testu ◦ 𝜎 𝑥 2 = 𝜎 𝑝 2 + 𝜎 𝑞 2 + 2𝜎 𝑝𝑞 2 – rozptyl celého testu. 𝜆4 = α (ve dvoupoložkovém testu) ◦ tau-ekvivalentní poloviny (jinak podhodnocuje) ◦ Proto je 𝜆4 dnes chápána jako maximalizovaná split-half pomocí nejlepšího možného rozdělení. „Příliš dobré rozdělení“→ na malých vzorcích nadhodnocuje. Pokud je kovariance větší než kterýkoli z rozptylů: hrubé podhodnocení. Založeno na jediné korelaci → nepřesný odhad reliability. Split-half: Nestejné poloviny Spearmanův-Brownův i Guttmanův přísup předpokládá stejně dlouhé poloviny testu. Odvozeno z SB-vzorce (při stejné délce by poloviny byly paralelní): ◦ Horstova (1951)1: 𝑟 𝐻 = 𝑟12 𝑟12 2 +4𝜋1 𝜋2 1−𝑟12 2 −𝑟12 2 2𝜋1 𝜋2 1−𝑟12 2 , kde 𝜋1 a 𝜋2 jsou délky polovin testu. Odvozeno z Guttmanovy 𝜆4 (při stejné délce by poloviny byly tau-ekvivalentní): ◦ Raju (1977): 𝛽 = 𝜎12 𝜋1 𝜋2 𝜎 𝑥 2 ◦ Délku polovin lze odhadnout na základě jejich rozptylu jako 𝜋1 = 𝜎1 2+𝜎12 𝜎 𝑥 2 , 𝜋2 = 𝜎2 2+𝜎12 𝜎 𝑥 2 , což lze dosadit: ◦ Angoffův-Feldtův koeficient (1953, 1975): 𝑟𝐴𝐹 = 4𝜎12 𝜎 𝑥 2− 𝜎1 2−𝜎2 2 2 𝜎 𝑥 2 Stručný přehled: Cígler, H., & Chvojka, E. (2022, February 16). Reliability estimation in tests composed of two items only: Admissible and Plausible reliability ranges. [Unpublished preprint]. https://doi.org/10.31234/osf.io/9w738 1 Horst (1951) má chybu ve vzorci 2, pro korektbní vzorec viz např. Warrense (2016). Položky jako paralelní testy Cronbachovo alfa (Guttmanova 𝜆3) 𝛼 = 𝑘 𝑘 − 1 1 − σ𝑖=1 𝑘 𝜎𝑖 2 𝜎 𝑥 2 ◦ 𝜎𝑖 2 – rozptyl položky i, σ𝑖=1 𝑘 𝜎𝑖 2 je diagonála var-kovar matice (unikátní rozptyl položek = chyba) ◦ 𝜎 𝑥 2 – rozptyl celého testu, tedy suma var-kovar matice (sdílený rozptyl položek) ◦ k – počet položek (ne celý unikátní rozptyl je chybou, proto korekce 𝑘 𝑘−1 , aby reliabilita mohla být 1) ◦ V případě binárních položek je výsledek shodný s výpočetně jednodušším KR-20. Předpoklady: ◦ Tau-ekvivalentní položky (při nedodržení je korekce 𝑘 𝑘−1 nedostatečná → podhodnocení reliability). ◦ Jednodimenzionalita (nadhodnocení i podhodnocení dle typu). ◦ Alfa není ukazatelem jednodimenzionality (viz např. Marko, 2016). Výhody: Přesný odhad (ve srovnání se split-half), jednoduchý/jednoznačný postup, tradice. Varianty koeficientu alfa Standardizované alfa. ◦ Pro výpočet použita korelační matice → reliabilita součtu standardizovaných položek. ◦ Použitelné v případě položek s rozdílnou odpověďovou škálou, tedy i pozorovaným rozptylem a výrazným narušením předpokladu tau-ekvivalence. Ordinální alfa (Zumbo, Gadermann, Zeisser, 2007) ◦ Alfa spočítané nad maticí polychorických korelací. ◦ Zcela jiný význam, není použitelné pro běžnou praxi. ◦ Není srovnatelné s jinými odhady reliability (viz např. Chalmers, 2017). Stratifikované Cronbachovo alfa Nejjednodušší odhad reliability součtu subtestů – Cronbach (1965): 𝛼 𝑠𝑡𝑟𝑎𝑡 = 1 − σ𝑖=1 𝑘 𝜔𝑖 2 𝜎𝑖 2 1 − 𝑟𝑖𝑖′ 𝜎 𝑍 2 ◦ 𝜔𝑖 „váha“ testu i ◦ 𝜎𝑖 2 rozptyl testu i ◦ 𝑟𝑖𝑖′ reliabilita testu i ◦ Pro výpočet stačí kovarianční matice a alfy subtestů. Předpokladem je nejen tau-ekvivalence položek v testech, ale i tau-ekvivalence testů. ◦ A nekorelované chyby měření testů. Např.: „Jaká bude test-retest korelace celkového IQ skóre, pokud jsou obě měření paralelní?“ Alpha: On the Use, the Misuse, and the Very Limited Usefulness of Cronbach’s Alpha Série článků po roce 2009, zejména: ◦ Sijtsma, K. (2009). On the Use, the Misuse, and the Very Limited Usefulness of Cronbach’s Alpha. Psychometrika, 74(1), 107–120. doi ◦ Bentler, P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency Reliability. Psychometrika, 74(1), 137–143. doi ◦ Sijtsma, K., & Pfadt, J. M. (2021). Part II: On the Use, the Misuse, and the Very Limited Usefulness of Cronbach’s Alpha: Discussing Lower Bounds and Correlated Errors. Psychometrika, 86(4), 843–860. https://doi.org/10.1007/s11336-021-09789-8 ◦ V češtině (slovenštině ): Marko, M. (2016). Využitie a zneužitie Cronbachovej alfy pri hodnotení psychodiagnostických nástrojov. Testfórum, 5(7). https://doi.org/10.5817/TF2016-7-90 Ve stručnosti: ◦ Alfa není odhadem reliability. Alfa je spodní hranicí reliability. Výhody, nevýhody. ◦ Koeficient alfa má své užití, které ale není odhad reliability. „Kontrola kvality“. ◦ Máme lepší estimátory reliability, které ale mohou nadhodnocovat. ◦ Koeficient alfa trpí, nebo naopak netrpí (a.) předpokladem nekorelovaných reziduí, (b.) jednodimenzionality, (c.) tau-ekvivalence. ◦ Potíže s epistemologickými východisky, různými cíli a způsoby využití. Alpha: On the Use, the Misuse, and the Very Limited Usefulness of Cronbach’s Alpha Moje naprosto nezávazné doporučení: Kdy ano: ◦ Ukazatel kvality diagnostických nástrojů. ◦ Odhad standardní chyby měření diagnostických nástrojů. ◦ Odhad reliability v případě dlouhých, přiměřeně normálně rozdělených testů s vícebodovými položkami. ◦ → spodní hranice reliability. Plní kontrolu kvality. Kdy ne: ◦ Odhad reliability výzkumných nástrojů. ◦ Korekce na nereliabilitu. ◦ Odhad reliability kontrolních proměnných v multivariační regresi. ◦ Podhodnocení reliability → nadhodnocení případných korekcí. Koeficienty založené na vysvětleném rozptylu omega FSD Model-based reliabilita: omega Rodina koeficientů; Betlerova, Raykovova, ... a zejm. McDonaldova omega. Obecný vzorec (Bollen, 1980; Raykov, 2001): 𝜔 = σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 + σ𝑖=1 𝑛 𝜎𝑒;𝑖 2 + 2 σ𝑖<𝑗 𝜎𝑖𝑗 2 = σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 𝜎𝑥 2 ◦ 𝜆𝑖 = faktorový náboj položky i ◦ 𝜎 𝜓 2 = rozptyl faktoru, 𝜎 𝑥 2 = celkový pozorovaný rozptyl ◦ 𝜎𝑒;𝑖 2 = reziduální rozptyl položky i ◦ 𝜎𝑖𝑗 2 = kovariance položek i, j Bez předpokladu tau-ekvivalence (rozdílné faktorové náboje jsou zohledněny). Model-based reliabilita: omega Rodina koeficientů; Betlerova, Raykovova, ... a zejm. McDonaldova omega. Obecný vzorec (Bollen, 1980; Raykov, 2001): 𝜔 = σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 + σ𝑖=1 𝑛 𝜎𝑒;𝑖 2 + 2 σ𝑖<𝑗 𝜎𝑖𝑗 2 = σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 𝜎𝑥 2 ◦ 𝜆𝑖 = faktorový náboj položky i ◦ 𝜎 𝜓 2 = rozptyl faktoru, 𝜎 𝑥 2 = celkový pozorovaný rozptyl ◦ 𝜎𝑒;𝑖 2 = reziduální rozptyl položky i (náhodný chybový rozptyl) ◦ 𝜎𝑖𝑗 2 = kovariance položek i, j (systematický chybový rozptyl) Bez předpokladu tau-ekvivalence (rozdílné faktorové náboje jsou zohledněny). ◦ vysvětlený rozptyl ◦ chybový rozptyl ◦ celkový rozptyl Model-based reliabilita: omega Použití koeficientu omega nás nutí zamyslet se, co je pravým skóre. Co je to, co chceme měřit? A také je nutné uvažovat nad modelem měření. ◦ V případě ordinální CFA Greenova-Yangova (2009) „prahová“ korekce. ◦ Green, S. B., & Yang, Y. (2009). Reliability of Summed Item Scores Using Structural Equation Modeling: An Alternative to Coefficient Alpha. Psychometrika, 74(1), 155–167. https://doi.org/10.1007/s11336-008-9099-3 Omega: Multidimenzionalita Omega: Multidimenzionalita Hierarchická omega (omega hierarchical): ◦ Rozptyl součtu položek vysvětlený daným faktorem. ◦ V případě faktoru druhého řádu (g) jsou specifické rozptyly faktorů prvního řádu považovány za chybu. ◦ Model based reliabilita: velmi záleží na definici modelu. Celková omega (omega total): ◦ Rozptyl součtu položek vysvětlený všemi faktory prvního řádu. ◦ Odhad test-retest reliability součtu položek, pokud se míra žádného z atributů nezmění. ◦ Odhad korelace paralelních testů při dodržení přiměřených předpokladů Omega: Multidimenzionalita Přehled dalších (FA) koeficientů Revellova β (1978): Nejnižší podíl rozptylu, který lze vysvětlit jediným faktorem. ◦ Odhad nejhorší možné split-half reliability. ◦ 𝛽 = 𝑘2ഥ𝜎 𝑖𝑗 𝜎 𝑥 2 , kde ത𝜎𝑖𝑗 je průměrná kovariance napříč dvěma nejhůře rozdělenými polovinami testu. Revellova omega: celková omega (𝜔 𝑡𝑜𝑡) odhadnutá s pomocí EFA. ◦ S větším počtem faktorů (typicky tři) a Schmid-Leiman transformací. Bentlerův koeficient glb (Greatest Lower-Bound of reliability, 1980): ◦ Dimension-free vnitřní konzistence. ◦ Princip: odhad 𝜔 𝑡𝑜𝑡 pro tolik faktorů, kolik jich nevede k negativnímu reziduálnímu rozptylu žádné z položek. ◦ 𝜌 𝑔𝑙𝑏 = 1 − max 1′Ψ1 1′Σ1 , s poslední pozitivně semi-definitní maticí Σ − Ψ (kde Σ je pozorovaná matice, Ψ reziduální matice a 1 je jednotková matice. SW implementace Pozor: omega v JASPu a JAMOVI je vhodným ukazatelem jen tehdy, pokud jednodimenzionální model sedí na data. Balíček psych v R (funkce splitHalf, omega, glb.fa). ◦ Pozor: funkce omega defaultně využívá korelační, nikoliv kovarianční matici (covar=FALSE). Funkce semTools::compRelSEM odhadne reliabilitu lavaan modelu. Vhodnější než psych balíček (lepší estimátory). ◦ Dříve funkce reliability, resp. reliabilityL2 (depracted). ◦ Vhodné i pro ordinální data – Greenova-Yangova (2009, vzorec 21) korekce. ◦ Možnost exploračního řešení s pomocí funkce lavaan::efa. Určitost (determinace) faktorových skórů Factor score determinacy Koeficienty omega jsou odhadem reliability součtu položek (všechny položky mají váhu 1). Občas pracujeme s odhady faktorových skórů (lineární kombinací položek). ◦ Vážený průměr všech položek; váha je spočítaná na základě f. nábojů a reziduálních rozptylů. ◦ 𝐶 = Σ 𝑦Λ 𝑦 𝑇 (Λ 𝑦Σ 𝑦Λ 𝑦 𝑇 + Θ 𝑦)−1 maticový vzorec výpočtu, není podstatné. Výhody: Vyšší reliabilita (váhy položek jsou optimálně zvolené). Nevýhody: Sample dependency (zvláště u malých vzorků nepřesný odhad parametrů FA modelu). Factor score determinacy (FSD) = podíl rozptylu odhadu faktorového skóre vysvětlený faktorem. Reliabilita rozdílu Jak reliabilní je používání rozdílu mezi dvěma testy? ◦ Například VIQ a PIQ ve WAIS-III? 𝑟𝑥−𝑦 = 𝜎 𝑥 2 𝑟 𝑥𝑥′+𝜎 𝑦 2 𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 𝜎 𝑥 2+𝜎 𝑦 2−2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 , ◦ kde 𝜎𝑥 2 a 𝜎 𝑦 2 jsou rozptyly obou testů, 𝑟𝑥𝑥′ a 𝑟𝑦𝑦′ jejich reliability a 𝑟𝑥𝑦 je jejich korelace. ◦ jmenovatel je roven rozptylu výsledných rozdílů. Pokud 𝜎𝑥 2 = 𝜎 𝑦 2 = 𝜎𝑥𝑦 2 (v případě standardizovaných testů), pak: ◦ 𝑟𝑥−𝑦 = 𝜎𝑥𝑦 2 𝑟 𝑥𝑥′+𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦 2−2𝑟 𝑥𝑦 Reliabilita rozdílu rxx‘ ryy‘ rxy rx-y SDx-y SEx-y CI95% 0,7 0,8 0 0,75 21,2 10,6 20,8 0,7 0,8 0,2 0,69 19,0 10,6 20,8 0,7 0,8 0,4 0,58 16,4 10,6 20,8 0,7 0,8 0,6 0,38 13,4 10,6 20,8 0,7 0,7 0,6 0,25 13,4 11,6 22,8 0,9 0,9 0,8 0,50 9,5 6,7 13,1 0,9 0,9 0,45 0,82 15,7 6,7 13,1 0,6 0,6 0,5 0,20 15,0 13,4 26,3 0,7 0,7 0,65 0,14 12,5 11,6 22,8 Standardní chybu (SE) rozdílu lze spočítat s pomocí SD a SE vpravo, nebo prostřednictvím vzorce. Toto je důvod, proč je problematická interpretace rozdílu vysoce korelovaných subtestů. ◦ rxx‘, ryy‘ – reliability testů x a y ◦ rxy – korelace testů x a y ◦ rx-y – reliabilita rozdílu ◦ SDx-y – SD rozdílu ◦ SEx-y – standardní chyba rozdílu ◦ CI95% – šířka 95% intervalu spolehlivosti Kompozitní reliabilita obecně rxx‘ ryy‘ rxy rx-y rx+y 0,7 0,8 0 0,75 0,75 0,7 0,8 0,2 0,69 0,79 0,7 0,8 0,4 0,58 0,82 0,7 0,8 0,6 0,38 0,84 0,7 0,7 0,6 0,25 0,81 0,9 0,9 0,8 0,50 0,94 0,9 0,9 0,45 0,82 0,93 0,6 0,6 0,5 0,20 0,73 0,7 0,7 0,65 0,14 0,82 Srovnání reliability rozdílu a kompozitní reliability (stratifikovaná Cronbachova alfa). Je evidentní, že korelace testů má opačný vliv na výslednou reliabilitu. S rostoucí korelací: ◦ reliabilita rozdílu klesá; ◦ kompozitní reliabilita roste. Příčinou je rozdílné nasčítání chypového rozptylu podle „součtového“ vzorce var 𝐴 ± 𝐵 = var 𝐴 + var 𝐵 ± 2cov 𝐴, 𝐵 ◦ Pomůcka: 𝑎 ± 𝑏 2 = 𝑎2 + 𝑏2 ± 2𝑎𝑏 ◦ Chyba se vždy sčítá, zatímco pravé skóry se sčítají nebo odčítají. Otázky na závěr Reliabilita čeho? ◦ Odhadu latentní proměnné? Stability pozorovaného skóre? ◦ Součtu položek, odhadu faktorového skóre? Stabilita skóre napříč (jakými?) podmínkami? Reliabilita není jedna. ◦ Záleží na epistemologických východiscích i účelu měření. Moje osobní doporučení Alfa je tradiční „deskriptivní“ ukazatel s jednoznačným výpočtem. Je dobré jej uvádět. ◦ Ale jde o podhodnocenou spodní hranici reliability. ◦ Z hlediska model-based reliability může nadhodnocovat i podhodnocovat. Omega koeficienty nejsou vhodné, pokud faktorový model nedobře popisuje data. ◦ Výjimkou je omega jednofaktorového modelu, které je vždy lepším estimátorem než alfa. V případě nejasné faktorové struktury lze využít některý z glb koeficientů. ◦ V případě velkého vzorku 𝜆4, v případě menšího (ale stále dostatečného) Bentlerovo 𝜌 𝑔𝑙𝑏. V případě jasné faktorové struktury je vhodnější omega koeficient. Lze si vybrat: ◦ Celková omega: Odhad dimension-free reliability jako uvažované stability skóru. ◦ Hierarchická omega: Odhad model-based reliability jako spolehlivosti usuzování na míru latentního rysu. Moje osobní doporučení Nepoužívejte dvoupoložkové testy!  ◦ Pokud je už použijete, ideální je Angoff-Feldtův koeficient, SB ale poslouží rovněž. Je potřeba vyvážit „jednoduchost“ postupu vs. jeho „vhodnost“ pro dané řešení. ◦ Potíže s omega koeficienty tkví v tom, že existuje mnoho postupů výpočtu s rozdílnými výsledky. ◦ Je jednoduché se do toho zamotat. Pokud vůbec netušíte, alfa (téměř vždy) poslouží! „Nebezpečné“ situace, kdy je dobré se zamyslet: ◦ Velmi krátké testy (do pěti položek?). ◦ Výrazně komplikovaná faktorová struktura... ◦ ... a zejména korelované chyby měření (reziduální kovariance). ◦ Výrazné porušení předpokladu tau-ekvivalence. ◦ Dvoupoložkové testy o nestejné délce.