Obsahem setkání bude podrobné vysvětlení modelu měření klasické testové teorie a jeho provázání s epistemologickými východisky (srov. přednášky epistemologického bloku). Přednáška se bude kromě vlastního modelu měření věnovat i pokročilým způsobům odhadu vnitřní konzistence ve specifických případech, a to zejména s využitím faktorové analýzy.
Praktická ilustrace konkrétních postupů pro odhad reliability tvoří podkapitolu tohoto tématu; odkaz viz níže.
Stručný obsah
- Opakování: Východiska klasické testové korelace (CTT; Traub, 1997). Attenuation coefficient (Spearman, 1904).
- Opakování: Nedostatky klasické testové teorie. Fergussonova komise. Stevensova (1946, s. 677) operacionální definice měření.
- Koncept paralelních testů, úrovně paralelnosti. Pojetí reliability v CTT skrze korelaci paralelních testů.
- Reliabilita jako korelace paralelních testů vs. reliabilita jako vysvětlený rozptyl. Parcializace rozptylu.
- Dimension-free vs. model-based reliability (srov. Bentler, 2008).
- Předpoklady a vlastnosti koeficientu alfa.
- Intuitivní testová teorie (jako součtový skór).
- Odhad reliability kompozitních skórů (alfa, omega a další) vs. odhad skrze korelaci paralelních testů (split-half aj.).
- Varianty koeficientu alfa: Ordinální alfa (Zumbo, Gadermann, Zeisser, 2007; srov. Chalmers, 2017), standardizované Cronbachovo alfa, stratifikované Cronbachovo alfa (pozor, ordinální alfa není odhadem reliability).
- Postupy odhadu reliability s využitím faktorové analýzy: rodina koeficientů omega. McDonaldova hierarchická
ωh a celková omega ωtot . Greenova-Yangova korekce (2009, vzorec 21) v případě ordinálního modelu měření.
- Vícedimenzionalita, kovariance reziduálních rozptylů, faktory vyššího řádu a zkřížené faktorové náboje při odhadu koeficientů omega.
- Koncept greatest-lower-bound of reliability (glb; spodní hranice reliability); odhad s pomocí McDonaldovy celkové omegy, ωtot, Bentlerův koeficient ρglb (Bentler, 1980; 2009; Revelle & Zinbarg, 2009; Sijtsma, 2009), Guttmanova maximalizovaná λ4.
- Ekvivalence koeficientů α, λ4, KR20.
- Metody a obtíže při odhadu reliability metodou split-half. Spearman-Brownův postup, Guttmanova λ4, Horstův vzorec, Raju β a Angoffův-Feldtův koeficient. Výhody a nevýhody jednotlivých přístupů.
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fss/podzim2024/PSYn4790/um/videa/PSYn4790_2024_P07_ctt.video5
Průběžná příprava: 6.–11. 11. 2024
Studijní zdroje
K představenému tématu neexistuje bohužel jediný jednoduchý a přehledný text, který by jej pokryl v plné šíři. Dáváme proto na výběr z většího množství zdrojů, které jsme se pro vás snažili kategorizovat a popsat. Zároveň to klade nároky na vás, věnujte proto prosím pozornost pokynům a doporučením.
Povinná literatura
Povinný text je recentní článek od Sijtsmy a kol. (2024), "první díl druhé série" o součtových skórech. Po jeho přečtení byste si měli odnést zejména:
- Shrnutí dosavadní diskuze o součtových skórech, co to jsou p-prims a intuitivní testová teorie.
- Co je to vlastně součtový skór, jaké má konotace jeho použití, a jaký vztah má k modelům s latentní proměnnou (zejm. 2PL IRT a logistickému Raschovu modelu a charakteristické funkci testu). Část s IRT vám "docvakne" po přednáškách o IRT za dva týdny.
- Souvislosti klasické testové teorie a faktorové analýzy; formalizace CTT skrze FA.
- Souvislost reliability s celkovým skóre.
- Koncept spodní hranice reliability; kritika alfy a alternativní koeficienty.
Zaměřte se jen na vybrané pasáže!
Text je velmi náročný a je pravděpodobné, že je celý nad vaše síly. Zaměřte se proto prosím na s. 84–94 (kap. o IRT mohou být srozumitelnější až po přednášce o IRT; zejm. její druhá část – čtěte spíše rychle a ne do deatilů), následující kap. o síťových modelech spíše přeskočte, a pokračujte až s. 97–107 (zde se zase nevěnujte matematickým důkazům na s. 103).
Rovnice a důkazy mohou být složité, nezaměřujte se na jejich detailní pochopení, text lze číst i nez nich. Soustřeďte se na interpretace, důsledky, slovní vysvětlení.
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fss/podzim2024/PSYn4790/um/literatura/452055c6-18e8-a903-3d2d-c43a7eadd820.pdf
Pokud tomuto článku nerozumíte vůbec a chybí vám podrobnější základy tématu, zopakujte si je z Furra (2018), celá část II (kap. 5–7, s. 101–196). I tak ale doporučuji alespoň nahlédnout do hlavního zdroje; kapitoly z Furra rozhodně nestačí.
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fss/podzim2024/PSYn4790/um/literatura/R._Michael_Furr__Verne_R._Bacharach_Psychometrics_An_Introduction.pdf
Praktické příklady
Pokud vás zajímá, jak prakticky spočítat reliabilitu pro různé příklady, podívejte se do následující kapitoly přímo zde v interaktivní osnově. Součástí jsou data a analytický skript v programu R.
Pokud vás zajímá, jak prakticky spočítat reliabilitu pro různé příklady, podívejte se do následující kapitoly přímo zde v interaktivní osnově. Součástí jsou data a analytický skript v programu R.
Pro pochopení základů klasické testové teorie můžete navíc využít i následující Excelovou simulaci. V prvním kroku jsou vygenerované pravé skóry osob (na základě zadané SD pravého skóru) a pozorované skóry v pěti striktně paralelních testech (se zadanou chybou měření, shodnou pro všechny testy). Následně jsou použity dva odhady standardní chyby měření:
- Je odhadnuta "průměrná" reliabilita jako průměrná korelace těchto pěti testů. S její pomocí a s pomocí průměrné směrodatné odchylky napříč pěti testy je odhadnuta standardní chyba měření podle CTT vzorce .
- Je odhadnuta chyba měření každého člověka s využití pěti subtestů jako standardní chyba průměru, , kde je počet subtestů. Tato chyba je zprůměrována napříč osobami (po převedení na rozptyl a zpět) do tzv. root-mean-square error, , kde je počet osob. RMSE je pak použito o odhadu reliability podle vzorce .
Oba postupy dávají prakticky shodný výsledek; odlišnosti jsou vzniklé průměrováním směrodatných odchylek a korelací při CTT postupu a předpokladem paralelních testů (který je porušen v důsledku výběrové chyby).
Doporučená a rozšiřující literatura
Jak už bylo řečeno, povinná četba neobsahuje všechna důležitá témata, řada jich chybí. Pokud se chcete lépe zorientovat, nebo vás téma zajímá, alespoň nahlédněte do následujících zdrojů. Tentokrát vám je předkládáme roztříděné podle tématu a okomentované. Zajímavostí je existence "seriálů" na různá témata, což v jiné psychologické literatuře zas tak často nepotkáte :)
Koeficient alfa
V této části vám doporučujeme tři texty. McNeish (2018) popisuje hlavní limity Cronbachovy alfy a představuje různé alternativy.
Následně Cronbach a Shavelson (2004; Cronbach se publikace textu nedožil) popisují, jak to vlastně Cronbach v 50. letech myslel. Pokud se do tohoto článku budete dívat, doporučuji se zaměřit pouze na stránky 392-403 a zbylé kapitoly nechat až na příští týden, protože se blíže věnují teorii zobecnitelnosti. Při čtení tohoto textu mějte na paměti fakt, že Cronbach celou dobu počítá s tím, že veškeré položky jsou paralelními testy, tj. mají všechny stejný faktorový náboj a reziduální rozptyl, a liší se výhradně svou obtížností. Klíčový je výběr položek z nějakého univerza položek. Cronbachův přístup je tak ryze operacionalistický.
Třetí text právě tento předpoklad paralelnosti vyzývá. Cho (2016) se nezaměřuje na výběr položek, ale na různé postupy odhadu reliability pro různé úrovně paralelnosti. Bohužel se naopak vůbec nezaměřuje na výběr položek z univerza a na chybu způsobenou rozdílnou obtížností položek. Z tohoto hlediska je Cho ryze realistický a zaměřuje se (podle Cronbacha) výhradně na relativní srovnání měřených osob.
- Shrnutí hlavních nevýhod koeficientu alfa a přehled možných alternativ:
McNeish, D. (2018). Thanks coefficient alpha, We’ll take it from here. Psychological Methods, 23(3), 1–22. https://doi.org/10.1037/met0000144
- Cronbach in memoriam o tom, jak to vlastně celé s koeficientem alfa myslel:
Cronbach, L. J., & Shavelson, R. J. (2004). My Current Thoughts on Coefficient Alpha and Successor Procedures. Educational and Psychological Measurement, 64(3), 391–418. https://doi.org/10.1177/0013164404266386 - Pokus o systematizaci koeficientů pro odhad reliability:
Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(4), 651–682. https://doi.org/10.1177/1094428116656239
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fss/podzim2024/PSYn4790/um/literatura/mcneish2017.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fss/podzim2024/PSYn4790/um/literatura/Cronbach2004.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fss/podzim2024/PSYn4790/um/literatura/cho2016.pdf
Implementace odhadů v R
Většina analýz lze realizovat v rámci R balíčku psych. Model-based odhady založené na koeficientu alfa jsou
compRelSEM funkce z R balíčku semTools
Jorgensen, T. D., Pornprasertmanit, S., Schoemann, A. M., & Rosseel, Y. (2022). semTools::compRelSEM. R package version 0.5-6. https://search.r-project.org/CRAN/refmans/semTools/html/compRelSEM.html
Ordinální alfa
Návrh alternativního koeficientu (ordinální) alfy a navazující diskuze, proč nejde o koeficient reliability.
- S01E01 (autoři koeficientu vykopávají): Gadermann, A. M., Guhn, M., & Zumbo, B. D. (2012). Estimating Ordinal Reliability for Likert-Type and Ordinal Item Response Data: A Conceptual, Empirical, and Practical Guide. Practical Assessment, Research, and Evaluation, 17(3), 1–13. https://doi.org/10.7275/n560-j767
- S01E02 (autoři koeficientu rozvádějí): Zumbo, B. D., Gadermann, A. M., & Zeisser, C. (2007). Ordinal versions of coefficients alpha and theta for Likert rating scales. Journal of Modern Applied Statistical Methods, 6(1), 21–29. https://doi.org/10.22237/jmasm/1177992180
- S02E01 (autoři dostávají na frak, Chalmers vše uvádí na pravou míru): Chalmers, R. P. (2018). On Misconceptions and the Limited Usefulness of Ordinal Alpha. Educational and Psychological Measurement, 78(6). https://doi.org/10.1177/0013164417727036
Elaborace obtíží spojených s koeficientem alfa
Potíže koeficientu alfa:
- V češtině: Marko, M. (2016). Využitie a zneužitie Cronbachovej alfy pri hodnotení psychodiagnostických nástrojov. Testfórum, 5(7), 99-107. https://doi.org/10.5817/TF2016-7-90
- Zdrojový text (doporučuji tento): Cho, E., & Kim, S. (2015). Cronbach’s Coefficient Alpha: Well Known but Poorly Understood. Organizational Research Methods, 18(2), 207–230. https://doi.org/10.1177/1094428114555994
Diskuze o spodní hranici reliability v časopise Psychometrika (náročné čtení):Začátek diskuze:
- S01E01: Sijtsma, K. (2009). On the Use, the Misuse, and the Very Limited Usefulness Of Cronbach’s Alpha. Psychometrika, 74(1), 107-120. doi: https://doi.org/10.1007/S11336-008-9101-0
- S01E02: Bentler, P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency Reliability. Psychometrika, 74(1), 137–143. https://doi.org/10.1007/s11336-008-9100-1
- S01E03: Revelle, W., & Zinbarg, R. E. (2009). Coefficients Alpha, Beta, Omega, and the glb: Comments on Sijtsma. Psychometrika, 74(1), 145–154. https://doi.org/10.1007/s11336-008-9102-z
- S01E04 (tento text trochu vybočuje od těch předchozích): Green, S. B., & Yang, Y. (2009). Reliability of Summed Item Scores Using Structural Equation Modeling: An Alternative to Coefficient Alpha. Psychometrika, 74(1), 155–167. https://doi.org/10.1007/s11336-008-9099-3
Diskuze o spodní hranici má po deseti letech pokračování. Klaas Sijtsma vysvětluje, že to nemyslel tak zle, a jiní psychometrikové mu vysvětlují, proč se plete:
- S02E1: Sijtsma, K., & Pfadt, J. M. (2021). Part II: On the Use, the Misuse, and the Very Limited Usefulness of Cronbach’s Alpha: Discussing Lower Bounds and Correlated Errors. Psychometrika, 86(4), 843–860. https://doi.org/10.1007/s11336-021-09789-8
- S02E02: Cho, E. (2021). Neither Cronbach’s Alpha nor McDonald’s Omega: A Commentary on Sijtsma and Pfadt. Psychometrika, 86(4), 877–886. https://doi.org/10.1007/s11336-021-09801-1
- S02E03: Bentler, P. M. (2021). Alpha, FACTT, and Beyond. Psychometrika, 86(4), 861–868. https://doi.org/10.1007/s11336-021-09797-8
- S02E04: Ellis, J. L. (2021). A Test Can Have Multiple Reliabilities. Psychometrika, 86(4), 869–876. https://doi.org/10.1007/s11336-021-09800-2
- S02E05: Sijtsma, K., & Pfadt, J. M. (2021). Rejoinder: The Future of Reliability. Psychometrika, 86(4), 887–892. https://doi.org/10.1007/s11336-021-09807-9
Součtové skóry
Skvělé dvě série diskuze o potížích se součtovým skóre. Obsahují řadu referencí na prequelly, poslední díly jsou ve formě online first a nejsou zařazeny ještě do konkrétního čísla (a nemají tedy přidělené strany):
- S01E01: McNeish, D., & Wolf, M. G. (2020). Thinking twice about sum scores. Behavior Research Methods, 52(6), 2287–2305. https://doi.org/10.3758/s13428-020-01398-0
- S01E02: Widaman, K. F., & Revelle, W. (2023). Thinking thrice about sum scores, and then some more about measurement and analysis. Behavior Research Methods, 55(2), 788–806. https://doi.org/10.3758/s13428-022-01849-w
- S01E03: McNeish, D. (2022). Psychometric properties of sum scores and factor scores differ even when their correlation is 0.98: A response to Widaman and Revelle. Behavior Research Methods, 55(8), 4269–4290. https://doi.org/10.3758/s13428-022-02016-x
- S01E04 (doporučuji poznámku přímo v názvu článku!): Widaman, K. F., & Revelle, W. (2024). Thinking About Sum Scores Yet Again, Maybe the Last Time, We Don’t Know, Oh No…1: A Comment on McNeish (2023). Educational and Psychological Measurement, 84(4), 637–659. https://doi.org/10.1177/00131644231205310
- S02E01: Sijtsma, K., Ellis, J. L., & Borsboom, D. (2024). Recognize the Value of the Sum Score, Psychometrics’ Greatest Accomplishment. Psychometrika, 89(1), 84–117. https://doi.org/10.1007/s11336-024-09964-7
- S02E02: McNeish, D. (2024). Practical Implications of Sum Scores Being Psychometrics’ Greatest Accomplishment. Psychometrika. https://doi.org/10.1007/s11336-024-09988-z
- S02E03: Mislevy, R. J. (2024). Are Sum Scores a Great Accomplishment of Psychometrics or Intuitive Test Theory? Psychometrika. https://doi.org/10.1007/s11336-024-10003-8
- S02E04: Sijtsma, K., Ellis, J. L., & Borsboom, D. (2024). Rejoinder to McNeish and Mislevy: What Does Psychological Measurement Require? Psychometrika. https://doi.org/10.1007/s11336-024-10004-7
Historické zdroje
Pokud jste fanouškem historických zdrojů a rádi jdete ke kořenům, můžete nahlédnout do originálního znění Závěrečného reportu Fergusonovy komise, případně do Stevensova (1946) originálního článku o měření pomocí "škál". Zajímavá je i reflexe pozdějších autorů, typicky Borsbooma nebo hlavně Michella (viz níže).
- Ferguson, A., Myers, C. S., Bartlett, R. J., Banister, H., Bartlett, F. C., Brown, W., ..., & Tucker, W. S. (1940). Final report of the committee appointed to consider and report upon the possibility of quantitative estimates of sensory events. Report of the British Association for the Advancement of Science, 2, 331–349.
- Stevens, S.S. (1946). On the Theory of Scales of Measurement. Science, 103(2684), 677-680. http://www.jstor.org/stable/1671815
- Michell, J. (1997). Quantitative science and the definition of measurement in psychology. British Journal of Psychology, 88(3), 355–383. https://doi.org/10.1111/j.2044-8295.1997.tb02641.x
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fss/podzim2024/PSYn4790/um/literatura/ferguson1940.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fss/podzim2024/PSYn4790/um/literatura/stevens1946.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fss/podzim2024/PSYn4790/um/literatura/michell1997.pdf
Citace z osnovy kurzu
Jen pokud by někoho zajímalo, co konkrétně je odkazované v osnově kurzu. Traub (2005), Spearman (1904) či Bentler a Woodward (1980) jsou extrémně zajímaví, ale pro účely tohoto kurzu asi nejsou zcela potřeba. Doporučuji pro chvíle volna :)
- Traub, R. E. (2005). Classical Test Theory in Historical Perspective. Educational Measurement: Issues and Practice, 16(4), 8–14. https://doi.org/10.1111/j.1745-3992.1997.tb00603.x
- Spearman, C. (1904). The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15(1), 72. https://doi.org/10.2307/1412159
- Green, S. B., & Yang, Y. (2009). Reliability of Summed Item Scores Using Structural Equation Modeling: An Alternative to Coefficient Alpha. Psychometrika, 74(1), 155–167. https://doi.org/10.1007/s11336-008-9099-3
- Bentler, P. M., & Woodward, J. A. (1980). Inequalities among lower bounds to reliability: With applications to test construction and factor analysis. Psychometrika, 45(2), 249–267. https://doi.org/10.1007/BF02294079