Psychometrika: měření v psychologii

Týden 5: Model měření klasické testové teorie | 10. 10. 2022

Obsahem setkání bude podrobné vysvětlení modelu měření klasické testové teorie a jeho provázání s epistemologickými východisky podle Borsbooma (srov. témata v rámci epistemologie, týdny 4-5). Přednáška se bude kromě vlastního modelu měření věnovat i pokročilým způsobům odhadu vnitřní konzistence ve specifických případech, a to zejména s využitím faktorové analýzy.

Stručný obsah

Opakování: Východiska klasické testové korelace (CTT; Traub, 1997). Attenuation coefficient (Spearman, 1904).
Opakování: Nedostatky klasické testové teorie. Fergussonova komise. Stevensova (1946, s. 677) operacionální definice měření.
Koncept paralelních testů, úrovně paralelnosti. Pojetí reliability v CTT skrze korelaci paralelních testů.
Reliabilita jako korelace paralelních testů vs. reliabilita jako vysvětlený rozptyl. Parcializace rozptylu.
Dimension-free vs. model-based reliability (srov. Bentler, 2008).
Předpoklady a vlastnosti koeficientu alfa.
Odhad reliability kompozitních skórů (alfa, omega a další) vs. odhad skrze korelaci paralelních testů (split-half aj.).
Varianty koeficientu alfa: Ordinální alfa (Zumbo, Gadermann, Zeisser, 2007; srov. Chalmers, 2017), standardizované Cronbachovo alfa, stratifikované Cronbachovo alfa.
Postupy odhadu reliability s využitím faktorové analýzy: rodina koeficientů omega. McDonaldova hierarchická ω_h a celková omega ω_tot . Greenova-Yangova korekce (2009, vzorec 21) v případě ordinálního modelu měření.
Vícedimenzionalita, kovariance reziduálních rozptylů, faktory vyššího řádu a zkřížené faktorové náboje při odhadu koeficientů omega.
Koncept greatest-lower-bound of reliability (glb); odhad s pomocí McDonaldovy celkové omegy, ω_tot, Bentlerův koeficient glb (Bentler, 1980; 2009; Revelle & Zinbarg, 2009; Sijtsma, 2009), Guttmanova maximalizovaná λ₄.
Ekvivalence koeficientů α, λ₄, KR₂₀.
Metody a obtíže při odhadu reliability metodou split-half. Spearman-Brownův postup, Guttmanova λ₄, Horstův vzorec, Raju β a Angoffův-Feldtův koeficient. Výhody a nevýhody jednotlivých přístupů.

Přednáška 05: Klasická testová teorie

Prezentace modelu měření klasické testové teorie, odhadů reliability a další.

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fss/podzim2022/PSYn4790/um/videa2020/PSYn4790_2022_P05.video5

Průběžná příprava: 12.–16. 10. 2022

Průběžná příprava 4 (reliabilita)

Studijní zdroje

Povinná literatura

K představovanému tématu neexistuje jednoduchý přehledný text, který by pokryl celé téma. Jako povinný zdroj pro toto setkání je proto McNeish (2018), který jednoduše shrnuje hlavní nevýhody koeficientu alfa a představuje alternativy. Doporučuji však tentokrát nahlédnout i do rozšiřující literatury, která je rozdělená na jednotlivé kapitoly a okomentovaná.

Základní povinná literatura: McNeish, D. (2018). Thanks coefficient alpha, We’ll take it from here. Psychological Methods, 23(3), 1–22. https://doi.org/10.1037/met0000144

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fss/podzim2022/PSYn4790/um/literatura/mcneish2017.pdf

Opakování

Tato přednáška úzce navazuje na některé koncepty z bakalářské statistiky, zejména základy konceptu reliability a práce s chybou měření. Pokud si těmito základy nejste jisti, doporučuji nahlédnout do některých z následujících zdrojů.

McNeishův (2018) článek může být ale velmi obtížně srozumitelný, pokud nemáte k dispozici dostatečné základy. Pokud se v oblasti reliability necítíte pevný/á v kramflecích, doporučuji zopakovat základní koncepty z Furra, a až potom nahlédnout do McNeishe.

Základní koncepty (opakování, pokud je potřeba): Furr, R. M., & Bacharach, V. R. (2014). Psychometrics : An Introduction, pp. 125–193. Sage.

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fss/podzim2022/PSYn4790/um/literatura/R._Michael_Furr__Verne_R._Bacharach_Psychometrics_An_Introduction.pdf

Praktické příklady

Pokud vás zajímá, jak prakticky spočítat reliabilitu pro různé příklady, podívejte se do následující kapitoly přímo zde v interaktivní osnově. Součástí jsou data a analytický skript v programu R.

Ilustrace různých odhadů reliability

Přejít

Pro pochopení základů klasické testové teorie můžete navíc využít i následující Excelovou simulaci. V prvním kroku jsou vygenerované pravé skóry osob (na základě zadané SD pravého skóru) a pozorované skóry v pěti striktně paralelních testech (se zadanou chybou měření, shodnou pro všechny testy). Následně jsou použity dva odhady standardní chyby měření:

Je odhadnuta "průměrná" reliabilita jako průměrná korelace těchto pěti testů. S její pomocí a s pomocí průměrné směrodatné odchylky napříč pěti testy je odhadnuta standardní chyba měření podle CTT vzorce $SE=SD\sqrt{1-r_{xx'}}$ .
Je odhadnuta chyba měření každého člověka s využití pěti subtestů jako standardní chyba průměru, $SE_p=\frac{\sum{x_{pi}}}{n}$ , kde $n=5$ je počet subtestů. Tato chyba je zprůměrována napříč osobami (po převedení na rozptyl a zpět) do tzv. root-mean-square error, $RMSE=\sqrt{\frac{SE_p^2}{N}}$ , kde $N$ je počet osob. RMSE je pak použito o odhadu reliability podle vzorce $r_{xx'}=1-\frac{RMSE^2}{SD}$ .

Oba postupy dávají prakticky shodný výsledek; odlišnosti jsou vzniklé průměrováním směrodatných odchylek a korelací při CTT postupu a předpokladem paralelních testů (který je porušen v důsledku výběrové chyby).

Srovnání tradičního "fyzikálního" měření a klasické testové teorie

Simulace obou přístupů v Excelu.

Doporučená a rozšiřující literatura

Doporučená literatura

Některé důležité koncepty v McNeishovy (2018) bohužel chybí. Z toho důvodu doporučuje dva rozšiřující články. Každý z nich přistupuje k reliabilitě z odlišného epistemologického směru.

První z nich (Cronbach a Shavelson, 2004) je skvělý exkurz do toho, jak to vlastně celé Cronbach myslel, když vymyslel Cronbachovu alfu :-) Pokud se do tohoto článku budete dívat, doporučuji se zaměřit pouze na stránky 392-403 a zbylé kapitoly nechat až na příští týden, protože se blíže věnují teorii zobecnitelnosti.
Při čtení tohoto textu mějte na paměti fakt, že Cronbach celou dobu počítá s tím, že veškeré položky jsou paralelními testy, tj. mají všechny stejný faktorový náboj a reziduální rozptyl, a liší se výhradně svou obtížností. Klíčový je výběr položek z nějakého univerza položek. Cronbachův přístup je tak ryze operacionalistický.

Cronbach in memoriam o tom, jak to vlastně celé myslel:
Cronbach, L. J., & Shavelson, R. J. (2004). My Current Thoughts on Coefficient Alpha and Successor Procedures. Educational and Psychological Measurement, 64(3), 391–418. https://doi.org/10.1177/0013164404266386

Druhý text právě tento předpoklad paralelnosti vyzývá. Cho (2016) se nezaměřuje na výběr položek, ale na různé postupy odhadu reliability pro různé úrovně paralelnosti. Bohužel se naopak vůbec nezaměřuje na výběr položek z univerza a na chybu způsobenou rozdílnou obtížností položek. Z tohoto hlediska je Cho ryze realistický a zaměřuje se (podle Cronbacha) výhradně na relativní srovnání měřených osob.

Pokus o systematizaci koeficientů pro odhad reliability:
Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(4), 651–682. https://doi.org/10.1177/1094428116656239

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fss/podzim2022/PSYn4790/um/literatura/Cronbach2004.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fss/podzim2022/PSYn4790/um/literatura/cho2016.pdf

Rozšiřující literatura

Následuje ryze rozšiřující literatura. Pokud vás psychometrika zajímá a rádi byste se jí v budoucnu věnovali, doporučuji k povšimnutí zejména další článek Cho (Cho a Kim, 2015) a potom diskuzi v podobě série článků o spodní hranici reliability. Ani jedno z toho není jednoduchý text, ale patří k určitému "zlatému standardu" současné psychometriky.

Teorie včetně implementace výpočtů v R skrze balíček psych:

Revelle, W. (2019). Chapter 7: Classical Test Theory and the Measurement of Reliability. An introduction to psychometric theory with applications in R, pp. 205–239. http://www.personality-project.org/r/book/Chapter7.pdf (Celá kniha zde.)

Diskuze o nevhodnosti konceptu ordinálních variant běžných koeficientů (např. ordinální alfa).

Autoři 1: Gadermann, A. M., Guhn, M., & Zumbo, B. D. (2012). Estimating Ordinal Reliability for Likert-Type and Ordinal Item Response Data: A Conceptual, Empirical, and Practical Guide. Practical Assessment, Research, and Evaluation, 17(3), 1–13. https://doi.org/10.7275/n560-j767
Autoři 2: Zumbo, B. D., Gadermann, A. M., & Zeisser, C. (2007). Ordinal versions of coefficients alpha and theta for Likert rating scales. Journal of Modern Applied Statistical Methods, 6(1), 21–29. https://doi.org/10.22237/jmasm/1177992180
Uvedení na pravou míru: Chalmers, R. P. (2018). On Misconceptions and the Limited Usefulness of Ordinal Alpha. Educational and Psychological Measurement, 78(6). https://doi.org/10.1177/0013164417727036

Potíže koeficientu alfa:

Marko, M. (2016). Využitie a zneužitie Cronbachovej alfy pri hodnotení psychodiagnostických nástrojov. Testfórum, 5(7), 99-107. https://doi.org/10.5817/TF2016-7-90
Cho, E., & Kim, S. (2015). Cronbach’s Coefficient Alpha: Well Known but Poorly Understood. Organizational Research Methods, 18(2), 207–230. https://doi.org/10.1177/1094428114555994

Diskuze o spodní hranici reliability v časopise Psychometrika (náročné čtení):

Sijtsma, K. (2009). On the Use, the Misuse, and the Very Limited Usefulness Of Cronbach’s Alpha. Psychometrika, 74(1), 107-120. doi: https://doi.org/10.1007/S11336-008-9101-0
Bentler, P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency Reliability. Psychometrika, 74(1), 137–143. https://doi.org/10.1007/s11336-008-9100-1
Revelle, W., & Zinbarg, R. E. (2009). Coefficients Alpha, Beta, Omega, and the glb: Comments on Sijtsma. Psychometrika, 74(1), 145–154. https://doi.org/10.1007/s11336-008-9102-z
Green, S. B., & Yang, Y. (2009). Reliability of Summed Item Scores Using Structural Equation Modeling: An Alternative to Coefficient Alpha. Psychometrika, 74(1), 155–167. https://doi.org/10.1007/s11336-008-9099-3

Diskuze o spodní hranici má po deseti letech pokračování. Klaas Sijtsma vysvětluje, že to nemyslel tak zle, a jiní psychometrikové mu vysvětlují, proč se plete:

Sijtsma, K., & Pfadt, J. M. (2021). Part II: On the Use, the Misuse, and the Very Limited Usefulness of Cronbach’s Alpha: Discussing Lower Bounds and Correlated Errors. Psychometrika, 86(4), 843–860. https://doi.org/10.1007/s11336-021-09789-8
Cho, E. (2021). Neither Cronbach’s Alpha nor McDonald’s Omega: A Commentary on Sijtsma and Pfadt. Psychometrika, 86(4), 877–886. https://doi.org/10.1007/s11336-021-09801-1
Bentler, P. M. (2021). Alpha, FACTT, and Beyond. Psychometrika, 86(4), 861–868. https://doi.org/10.1007/s11336-021-09797-8
Ellis, J. L. (2021). A Test Can Have Multiple Reliabilities. Psychometrika, 86(4), 869–876. https://doi.org/10.1007/s11336-021-09800-2
Sijtsma, K., & Pfadt, J. M. (2021). Rejoinder: The Future of Reliability. Psychometrika, 86(4), 887–892. https://doi.org/10.1007/s11336-021-09807-9
Widaman, K. F., & Revelle, W. (2022). Thinking thrice about sum scores, and then some more about measurement and analysis. Behavior Research Methods, 1, 1–19. https://doi.org/10.3758/s13428-022-01849-w

Citace z osnovy kurzu

Jen pokud by někoho zajímalo, co konkrétně je odkazované v osnově kurzu. Traub (2005), Spearman (1904) a Stevens (1946) jsou extrémně zajímaví, ale pro účely tohoto kurzu asi nejsou zcela potřeba. Doporučuji pro chvíle volna :)

Traub, R. E. (2005). Classical Test Theory in Historical Perspective. Educational Measurement: Issues and Practice, 16(4), 8–14. https://doi.org/10.1111/j.1745-3992.1997.tb00603.x
Spearman, C. (1904). The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15(1), 72. https://doi.org/10.2307/1412159
Green, S. B., & Yang, Y. (2009). Reliability of Summed Item Scores Using Structural Equation Modeling: An Alternative to Coefficient Alpha. Psychometrika, 74(1), 155–167. https://doi.org/10.1007/s11336-008-9099-3
Stevens, S.S. (1946). On the Theory of Scales of Measurement. Science, 103(2684), 677-680. http://www.jstor.org/stable/1671815
Bentler, P. M., & Woodward, J. A. (1980). Inequalities among lower bounds to reliability: With applications to test construction and factor analysis. Psychometrika, 45(2), 249–267. https://doi.org/10.1007/BF02294079

Předchozí

Následující

Psychometrika: měření v psychologii
- Nyní studovat
  
  Organizační pokyny a podmínky pro absolvování kurzu
  - Pokyny a doporučení ke čtení povinné literatury
  - Pokyny k vyplňování průběžných "open-book" testů
- Nyní studovat
  
  Týden 1: Uvedení do kurzu. Zadání SP. Základní koncepty | 12. 9. 2022
- Nyní studovat
  
  Týden 2: Replikovatelnost psychologického výzkumu a metaanalýza | 19. 9. 2022
- Nyní studovat
  
  Týden 3-4: Epistemologie | 26. 9. a 3. 10. 2022
- Nyní studovat
  
  Týden 5: Model měření klasické testové teorie | 10. 10. 2022
  - Ilustrace různých odhadů reliability
- Nyní studovat
  
  Týden 6: Teorie zobecnitelnosti | 17. 10. 2022
  - Řešené příklady
- Nyní studovat
  
  Týden 7-8: Teorie odpovědi na položku | 24. a 31. 10. 2022
- Nyní studovat
  
  Řešení vybraných otázek průběžného testu
- Nyní studovat
  
  Týden 9: Interpretace testových skórů | 7. 11. 2022
- Nyní studovat
  
  Týden 10: Síťové modely v psychologii 14. 11. 2022
- Nyní studovat
  
  Týden 11: Férovost v testování | 21. 11. 2022
- Nyní studovat
  
  Týden 12: Shoda posuzovatelů | 28. 11. 2022
- Nyní studovat
  
  Týden 13: Psychometrický workshop | 5. 12. 2022

Operace

Prohlédnout vše

Interaktivní osnova

Týden 5: Model měření klasické testové teorie | 10. 10. 2022

Stručný obsah

Průběžná příprava: 12.–16. 10. 2022

Studijní zdroje

Povinná literatura

Praktické příklady

Doporučená a rozšiřující literatura

Doporučená literatura

Rozšiřující literatura

Citace z osnovy kurzu

Operace