Tato přednáška úzce navazuje na některé koncepty z bakalářské statistiky, zejména základy konceptu reliability a práce s chybou měření. Pokud si těmito základy nejste jisti, doporučuji nahlédnout do některých z následujících zdrojů.
Týden 5: Model měření klasické testové teorie | 10. 10. 2022
Obsahem setkání bude podrobné vysvětlení modelu měření klasické testové teorie a jeho provázání s epistemologickými východisky podle Borsbooma (srov. témata v rámci epistemologie, týdny 4-5). Přednáška se bude kromě vlastního modelu měření věnovat i pokročilým způsobům odhadu vnitřní konzistence ve specifických případech, a to zejména s využitím faktorové analýzy.
Stručný obsah
- Opakování: Východiska klasické testové korelace (CTT; Traub, 1997). Attenuation coefficient (Spearman, 1904).
- Opakování: Nedostatky klasické testové teorie. Fergussonova komise. Stevensova (1946, s. 677) operacionální definice měření.
- Koncept paralelních testů, úrovně paralelnosti. Pojetí reliability v CTT skrze korelaci paralelních testů.
- Reliabilita jako korelace paralelních testů vs. reliabilita jako vysvětlený rozptyl. Parcializace rozptylu.
- Dimension-free vs. model-based reliability (srov. Bentler, 2008).
- Předpoklady a vlastnosti koeficientu alfa.
- Odhad reliability kompozitních skórů (alfa, omega a další) vs. odhad skrze korelaci paralelních testů (split-half aj.).
- Varianty koeficientu alfa: Ordinální alfa (Zumbo, Gadermann, Zeisser, 2007; srov. Chalmers, 2017), standardizované Cronbachovo alfa, stratifikované Cronbachovo alfa.
- Postupy odhadu reliability s využitím faktorové analýzy: rodina koeficientů omega. McDonaldova hierarchická ωh a celková omega ωtot . Greenova-Yangova korekce (2009, vzorec 21) v případě ordinálního modelu měření.
- Vícedimenzionalita, kovariance reziduálních rozptylů, faktory vyššího řádu a zkřížené faktorové náboje při odhadu koeficientů omega.
- Koncept greatest-lower-bound of reliability (glb); odhad s pomocí McDonaldovy celkové omegy, ωtot, Bentlerův koeficient glb (Bentler, 1980; 2009; Revelle & Zinbarg, 2009; Sijtsma, 2009), Guttmanova maximalizovaná λ4.
- Ekvivalence koeficientů α, λ4, KR20.
- Metody a obtíže při odhadu reliability metodou split-half. Spearman-Brownův postup, Guttmanova λ4, Horstův vzorec, Raju β a Angoffův-Feldtův koeficient. Výhody a nevýhody jednotlivých přístupů.
Průběžná příprava: 12.–16. 10. 2022
Studijní zdroje
Povinná literatura
K představovanému tématu neexistuje jednoduchý přehledný text, který by pokryl celé téma. Jako povinný zdroj pro toto setkání je proto McNeish (2018), který jednoduše shrnuje hlavní nevýhody koeficientu alfa a představuje alternativy. Doporučuji však tentokrát nahlédnout i do rozšiřující literatury, která je rozdělená na jednotlivé kapitoly a okomentovaná.
- Základní povinná literatura: McNeish, D. (2018). Thanks coefficient alpha, We’ll take it from here. Psychological Methods, 23(3), 1–22. https://doi.org/10.1037/met0000144
McNeishův (2018) článek může být ale velmi obtížně srozumitelný, pokud nemáte k dispozici dostatečné základy. Pokud se v oblasti reliability necítíte pevný/á v kramflecích, doporučuji zopakovat základní koncepty z Furra, a až potom nahlédnout do McNeishe.
- Základní koncepty (opakování, pokud je potřeba): Furr, R. M., & Bacharach, V. R. (2014). Psychometrics : An Introduction, pp. 125–193. Sage.
Praktické příklady
Pokud vás zajímá, jak prakticky spočítat reliabilitu pro různé příklady, podívejte se do následující kapitoly přímo zde v interaktivní osnově. Součástí jsou data a analytický skript v programu R.
Pro pochopení základů klasické testové teorie můžete navíc využít i následující Excelovou simulaci. V prvním kroku jsou vygenerované pravé skóry osob (na základě zadané SD pravého skóru) a pozorované skóry v pěti striktně paralelních testech (se zadanou chybou měření, shodnou pro všechny testy). Následně jsou použity dva odhady standardní chyby měření:
- Je odhadnuta "průměrná" reliabilita jako průměrná korelace těchto pěti testů. S její pomocí a s pomocí průměrné směrodatné odchylky napříč pěti testy je odhadnuta standardní chyba měření podle CTT vzorce .
- Je odhadnuta chyba měření každého člověka s využití pěti subtestů jako standardní chyba průměru, , kde je počet subtestů. Tato chyba je zprůměrována napříč osobami (po převedení na rozptyl a zpět) do tzv. root-mean-square error, , kde je počet osob. RMSE je pak použito o odhadu reliability podle vzorce .
Oba postupy dávají prakticky shodný výsledek; odlišnosti jsou vzniklé průměrováním směrodatných odchylek a korelací při CTT postupu a předpokladem paralelních testů (který je porušen v důsledku výběrové chyby).
Doporučená a rozšiřující literatura
Doporučená literatura
Některé důležité koncepty v McNeishovy (2018) bohužel chybí. Z toho důvodu doporučuje dva rozšiřující články. Každý z nich přistupuje k reliabilitě z odlišného epistemologického směru.
První z nich (Cronbach a Shavelson, 2004) je skvělý exkurz do toho, jak to vlastně celé Cronbach myslel, když vymyslel Cronbachovu alfu :-) Pokud se do tohoto článku budete dívat, doporučuji se zaměřit pouze na stránky 392-403 a zbylé kapitoly nechat až na příští týden, protože se blíže věnují teorii zobecnitelnosti.
Při čtení tohoto textu mějte na paměti fakt, že Cronbach celou dobu počítá s tím, že veškeré položky jsou paralelními testy, tj. mají všechny stejný faktorový náboj a reziduální rozptyl, a liší se výhradně svou obtížností. Klíčový je výběr položek z nějakého univerza položek. Cronbachův přístup je tak ryze operacionalistický.
- Cronbach in memoriam o tom, jak to vlastně celé myslel:
Cronbach, L. J., & Shavelson, R. J. (2004). My Current Thoughts on Coefficient Alpha and Successor Procedures. Educational and Psychological Measurement, 64(3), 391–418. https://doi.org/10.1177/0013164404266386
Druhý text právě tento předpoklad paralelnosti vyzývá. Cho (2016) se nezaměřuje na výběr položek, ale na různé postupy odhadu reliability pro různé úrovně paralelnosti. Bohužel se naopak vůbec nezaměřuje na výběr položek z univerza a na chybu způsobenou rozdílnou obtížností položek. Z tohoto hlediska je Cho ryze realistický a zaměřuje se (podle Cronbacha) výhradně na relativní srovnání měřených osob.
- Pokus o systematizaci koeficientů pro odhad reliability:
Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(4), 651–682. https://doi.org/10.1177/1094428116656239
Rozšiřující literatura
Následuje ryze rozšiřující literatura. Pokud vás psychometrika zajímá a rádi byste se jí v budoucnu věnovali, doporučuji k povšimnutí zejména další článek Cho (Cho a Kim, 2015) a potom diskuzi v podobě série článků o spodní hranici reliability. Ani jedno z toho není jednoduchý text, ale patří k určitému "zlatému standardu" současné psychometriky.
Teorie včetně implementace výpočtů v R skrze balíček psych:
- Revelle, W. (2019). Chapter 7: Classical Test Theory and the Measurement of Reliability. An introduction to psychometric theory with applications in R, pp. 205–239. http://www.personality-project.org/r/book/Chapter7.pdf (Celá kniha zde.)
- Autoři 1: Gadermann, A. M., Guhn, M., & Zumbo, B. D. (2012). Estimating Ordinal Reliability for Likert-Type and Ordinal Item Response Data: A Conceptual, Empirical, and Practical Guide. Practical Assessment, Research, and Evaluation, 17(3), 1–13. https://doi.org/10.7275/n560-j767
- Autoři 2: Zumbo, B. D., Gadermann, A. M., & Zeisser, C. (2007). Ordinal versions of coefficients alpha and theta for Likert rating scales. Journal of Modern Applied Statistical Methods, 6(1), 21–29. https://doi.org/10.22237/jmasm/1177992180
- Uvedení na pravou míru: Chalmers, R. P. (2018). On Misconceptions and the Limited Usefulness of Ordinal Alpha. Educational and Psychological Measurement, 78(6). https://doi.org/10.1177/0013164417727036
- Marko, M. (2016). Využitie a zneužitie Cronbachovej alfy pri hodnotení psychodiagnostických nástrojov. Testfórum, 5(7), 99-107. https://doi.org/10.5817/TF2016-7-90
- Cho, E., & Kim, S. (2015). Cronbach’s Coefficient Alpha: Well Known but Poorly Understood. Organizational Research Methods, 18(2), 207–230. https://doi.org/10.1177/1094428114555994
- Sijtsma, K. (2009). On the Use, the Misuse, and the Very Limited Usefulness Of Cronbach’s Alpha. Psychometrika, 74(1), 107-120. doi: https://doi.org/10.1007/S11336-008-9101-0
- Bentler, P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency Reliability. Psychometrika, 74(1), 137–143. https://doi.org/10.1007/s11336-008-9100-1
- Revelle, W., & Zinbarg, R. E. (2009). Coefficients Alpha, Beta, Omega, and the glb: Comments on Sijtsma. Psychometrika, 74(1), 145–154. https://doi.org/10.1007/s11336-008-9102-z
- Green, S. B., & Yang, Y. (2009). Reliability of Summed Item Scores Using Structural Equation Modeling: An Alternative to Coefficient Alpha. Psychometrika, 74(1), 155–167. https://doi.org/10.1007/s11336-008-9099-3
Diskuze o spodní hranici má po deseti letech pokračování. Klaas Sijtsma vysvětluje, že to nemyslel tak zle, a jiní psychometrikové mu vysvětlují, proč se plete:
- Sijtsma, K., & Pfadt, J. M. (2021). Part II: On the Use, the Misuse, and the Very Limited Usefulness of Cronbach’s Alpha: Discussing Lower Bounds and Correlated Errors. Psychometrika, 86(4), 843–860. https://doi.org/10.1007/s11336-021-09789-8
- Cho, E. (2021). Neither Cronbach’s Alpha nor McDonald’s Omega: A Commentary on Sijtsma and Pfadt. Psychometrika, 86(4), 877–886. https://doi.org/10.1007/s11336-021-09801-1
- Bentler, P. M. (2021). Alpha, FACTT, and Beyond. Psychometrika, 86(4), 861–868. https://doi.org/10.1007/s11336-021-09797-8
- Ellis, J. L. (2021). A Test Can Have Multiple Reliabilities. Psychometrika, 86(4), 869–876. https://doi.org/10.1007/s11336-021-09800-2
- Sijtsma, K., & Pfadt, J. M. (2021). Rejoinder: The Future of Reliability. Psychometrika, 86(4), 887–892. https://doi.org/10.1007/s11336-021-09807-9
- Widaman, K. F., & Revelle, W. (2022). Thinking thrice about sum scores, and then some more about measurement and analysis. Behavior Research Methods, 1, 1–19. https://doi.org/10.3758/s13428-022-01849-w
Citace z osnovy kurzu
Jen pokud by někoho zajímalo, co konkrétně je odkazované v osnově kurzu. Traub (2005), Spearman (1904) a Stevens (1946) jsou extrémně zajímaví, ale pro účely tohoto kurzu asi nejsou zcela potřeba. Doporučuji pro chvíle volna :)
- Traub, R. E. (2005). Classical Test Theory in Historical Perspective. Educational Measurement: Issues and Practice, 16(4), 8–14. https://doi.org/10.1111/j.1745-3992.1997.tb00603.x
- Spearman, C. (1904). The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15(1), 72. https://doi.org/10.2307/1412159
- Green, S. B., & Yang, Y. (2009). Reliability of Summed Item Scores Using Structural Equation Modeling: An Alternative to Coefficient Alpha. Psychometrika, 74(1), 155–167. https://doi.org/10.1007/s11336-008-9099-3
- Stevens, S.S. (1946). On the Theory of Scales of Measurement. Science, 103(2684), 677-680. http://www.jstor.org/stable/1671815
- Bentler, P. M., & Woodward, J. A. (1980). Inequalities among lower bounds to reliability: With applications to test construction and factor analysis. Psychometrika, 45(2), 249–267. https://doi.org/10.1007/BF02294079