Přednáška 5:
Model klasické testové teorie
10. 10. 2021 | PSYn4790 | Psychometrika: Měření v psychologii
Katedra psychologie, Fakulta sociálních studií MU
Hynek Cígler
Klasická testová teorie (CTT)
Tři pilíře CTT (Traub, 1997):
◦ Chyby I. typu, chyba měření jako náhodná veličina, korelace.
Koeficient proti oslabení korelace (Spearman, 1904).
◦ Vztah reliability, chyby měření a koncept paralelních testů.
◦ Attenuation formula, 𝑟𝑝𝑞
∗ =
𝑟 𝑝𝑞
𝑟 𝑝𝑝′ 𝑟 𝑞𝑞′
.
Vývoj CTT byl prakticky ukončen do 60. let: Lord a Novick (1968).
◦ Od té doby jen drobná zlepšení (estimátory, koeficienty apod.
Klasická testová teorie (CTT)
Důležitým impulzem byla Fergusonova komise (1932– 1940).
◦ Striktní požadavek aditivity (a zřetězení).
◦ Psychologové zřetězení nedokázali → CTT není vědeckou teorií měření.
◦ Což ale neznamená, že to není geniální nápad! 
◦ Reakcí byla Stevensova operační teorie měření, která rozšířila definici měření:
„...measurement, in the broadest sense, is defined as the assignment of
numerals to objects and events according to rules.“ (Stevens, 1946, s. 677).
Klíčový pojem je „matching“.
◦ Ve skutečnosti zjednodušení konsenzu z přírodních věd: „Measurement is a method of assigning
numbers to magnitudes“ (např. Helmholtz, 1887).
◦ Klasické měření: Existuje magnituda, kterou kvantifikujeme pomocí měřicího nástroje (realismus).
◦ CTT: Magnitudu „vytváříme“ s pomocí pravidla bez ohledu na povahu jevu (operacionalismus).
von Helmholtz, H. (1887/1971). An Epistemological Analysis of Counting and Measurement. In R. Kahl (ed.), Selected Writings of Hermann von Helmholtz. Wesleyan University Press.
Pro interpretaci doporučuji: Michell, J. (1993). The origins of the representational theory of measurement: Helmholtz, Hölder, and Russell. Studies in History and Philosophy of Science Part A, 24(2), 185–206. doi:10.1016/0039-3681(93)90045-l
Rozdělení CTT a reprezentačního modelu
Fergusonova komise měla za následek rozdělení měření v sociálních vědách do dvou směrů.
1. Klasická testová teorie (CTT)
◦ Stevens (1946), Lord a Novick (1968)
◦ „Měření je přiřazování čísel jevům podle pravidel.“ Typicky: sečteme/zprůměrujeme body/položky.
◦ Nezabývá se algebraickou strukturou škály, aditivitou.
2. Reprezentační model měření.
◦ A zejména teorie spojitého měření (CM; Debreu, 1960; Luce & Tukey, 1964).
◦ Pomocí aditivních operací vytváří algebraickou strukturu z nealgebraických dat.
◦ Jinými slovy: dokáže vytvořit spojitou „míru“ v případě, že pozorujeme pouze seřazená data.
◦ Data musí odpovídat modelu. Využití i realistickými teoriemi (Raschův model).
◦ Existuje-li latentní proměnná, která se manifestuje určitým způsobem, Raschův model bude spojitým měřením a dobře popíše data.
◦ Popsal-li Raschův model dobře data, latentní proměnná může, ale nemusí existovat. Aby šlo o CM, je nutné splnit další podmínky.
◦ Nepopsal-li Raschův model dobře data, latentní proměnná může, ale nemusí existovat, nicméně nepůjde o CM.
Odbočka: škálování
V 1. pol. 20. stol. se psychologie hodně zaměřovala právě na proces, jak „vznikají“ čísla při měření.
Otázka za zlatého bludišťáka: Jak z pozorování vyrobit „škálu“?
◦ U jednoduchých psychofyzikálních dat jasné, problém je s komplexnějšími konstrukty.
Řada různých „škál“: Hayes a Patterson (1921), Bogardus (1925), Thurstone (1928), Likert (1932),
Guttman (1944), Osgood (1957) a další.
Od 50. let však minimální další rozvoj.
◦ Etablování stávajících škál.
◦ Rozvoj faktorové analýzy (omezené využití u některých škál a naopak realistické vysvětlení toho, proč škály
fungují).
◦ Pokročilejší postupy jsou komplikované a nemají všeobecné využití.
◦ Rozvoj měření v psychologii vedl ke standardizaci postupů.
Měření v přírodních vědách
Existuje nějaký atribut, který opakovaně měříme tím stejným nástrojem/procedurou.
Každé jedno měření má nějakou chybou, kterou neznáme.
◦ Jednotlivá měření se pohybují okolo skutečné hodnoty v důsledku náhodné chyby měření.
Výsledkem opakovaných měření je proto rozložení, které použijeme pro odhad
skutečné hodnoty:
◦ Průměr rozložení: odhad míry atributu, E 𝑥 =
σ𝑖=1
𝑁
𝑥 𝑖
𝑁
.
◦ 𝑁 – počet měření; 𝑥𝑖 – i-tá naměřená hodnota; E 𝑥 – expected value (průměr, nejpravděpodobnější hodnota příštího
měření.
◦ Standardní chyba průměru: odhad standardní chyby měření, 𝑆𝐸 =
𝑠 𝑑
𝑁
◦ 𝑆𝐸 – standardní chyba měření (Standard Error), 𝑠 𝑑 – výběrová směrodatná odchylka jednotlivých měření.
◦ Lze využít pro konstrukci CI atd. (za pomoci Studentova t-rozložení).
Předpoklady
Odhad průměru (standardní chyba měření) je přibližně normálně rozložený.
◦ Centrální limitní teorém: potřebujeme alespoň 30 měření.
◦ Příklady zde a zde 
To v psychologii není možné. Nemůžu člověka měřit 30krát tím stejným testem
(vyjma jednoduchých psychofyzikálních úloh).
Kudy z toho ven? Shodná chyba měření pro všechny respondenty.
◦ Nikoliv „standardní chybu průměru“ pro každého respondenta zvlášť.
Jednotlivá měření jako paralelní testy.
Paralelní testy
„Dobré“ měření je takové, kdy různí lidé v různých časech dojdou různými
nástroji ke stejným naměřeným hodnotám, pokud se míra samotného objektu
nezměnila.
Paralelní testy/měření jsou takové, pro které platí:
◦ A. Pravý skór je v paralelních testech a pro každý měřený subjekt stejný
◦ 𝑇 = E 𝑋 = lim
𝑛→∞
σ𝑖=1
𝑛
𝑋 𝑖
𝑛
.
◦ B. Chybový rozptyl je v paralelních testech a pro každý subjekt stejný.
◦ Důsledkem je navíc shodný rozptyl pozorovaných skórů obou testů.
Paralelní testy
Korelace paralelních testů je reliabilita: 𝑟 𝑥𝑥′ = cor 𝑥, 𝑥′
◦ CTT postup s paralelními testy a tradiční „fyzikální“ měření vedou ke stejným výsledkům.
◦ To je právě Spearmanův objev.
◦ Test-retest, paralelní formy, shoda posuzovatelů, split-half...
Původně CTT považovala za paralelní testy pouze jejich výsledek (celkové skóre).
◦ Způsob konstrukce tohoto skóre je irelevantní.
◦ Operacionalismus: pravé skóre (a tedy měřený atribut) je definovaný měřením.
CTT tedy chápe reliabilitu jako „stabilitu“ odhadu pravého skóre napříč
podmínkami (paralelním testováním).
S postupem času otázka: Jak se celkové skóre vytváří?
◦ Položky jako paralelní testy.
Paralelní testy
Potíž v sociálních vědách je ale ten, že paralelní testy neexistují.
◦ Jde jen o hypotetický koncept (model).
Položky se liší...
◦ ... svou obtížností,
◦ ... těsností vztahu s univerzem,
◦ ... mírou náhodné chyby,
a respondenti se rovněž napříč měřeními vyvíjejí.
Proto uvažujeme spíše o „míře paralelnosti“.
CTT: Paralelní testy
Úrovně paralelnosti položek (založené na faktorové analýze):
𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝑖 𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒𝑖
Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky.
◦ Měří stejný rys (trs rysů), ale jiným způsobem.
Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem.
◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky).
Paralelní: Položky měří se stejnou velikostí chyby.
◦ + Shodné reziduální rozptyly.
Striktně paralelní: Stejná obtížnost všech položek.
◦ + Shodné intercepty/průměry položek.
◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 .
Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní
◦ 𝑋𝑖𝑝 – pozorované skóre
osoby 𝑝 na pol. 𝑖
◦ 𝑖𝑖, 𝑎𝑖 – intercept a faktorový
náboj pol. 𝑖
◦ 𝜏 𝑝 – pravé skóre osoby 𝑝
◦ 𝑒𝑖𝑝 – náhodná chyba osoby
𝑝 na pol. 𝑖 (reziduum)
◦ 𝑒𝑖𝑝~N 0, var 𝑒𝑖 – tato
chyba pochází z normálního
rozložení s průměrem 0 a
rozptylem var 𝑒𝑖
CTT: Paralelní testy
Úrovně paralelnosti položek (založené na faktorové analýze):
𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝑖 𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒𝑖
Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky.
◦ Měří stejný rys (trs rysů), ale jiným způsobem.
Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem.
◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky).
Paralelní: Položky měří se stejnou velikostí chyby.
◦ + Shodné reziduální rozptyly.
Striktně paralelní: Stejná obtížnost všech položek.
◦ + Shodné intercepty/průměry položek.
◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 .
Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní
CTT: Paralelní testy
Úrovně paralelnosti položek (založené na faktorové analýze):
𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒𝑖
Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky.
◦ Měří stejný rys (trs rysů), ale jiným způsobem.
Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. 𝑎𝑖 = 𝑎
◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky).
Paralelní: Položky měří se stejnou velikostí chyby.
◦ + Shodné reziduální rozptyly.
Striktně paralelní: Stejná obtížnost všech položek.
◦ + Shodné intercepty/průměry položek.
◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 .
Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní
CTT: Paralelní testy
Úrovně paralelnosti položek (založené na faktorové analýze):
𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒
Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky.
◦ Měří stejný rys (trs rysů), ale jiným způsobem.
Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem.
◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky).
Paralelní: Položky měří se stejnou velikostí chyby. 𝑎𝑖 = 𝑎, var 𝑒𝑖𝑝 = var 𝑒
◦ + Shodné reziduální rozptyly.
Striktně paralelní: Stejná obtížnost všech položek.
◦ + Shodné intercepty/průměry položek.
◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 .
Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní
CTT: Paralelní testy
Úrovně paralelnosti položek (založené na faktorové analýze):
𝑋𝑖𝑝 = 𝑖 + 𝑎𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒
Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky.
◦ Měří stejný rys (trs rysů), ale jiným způsobem.
Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem.
◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky).
Paralelní: Položky měří se stejnou velikostí chyby.
◦ + Shodné reziduální rozptyly.
Striktně paralelní: Stejná obtížnost všech položek. 𝑎𝑖 = 𝑎, var 𝑒𝑖𝑝 = var 𝑒 , 𝑖𝑖 = 𝑖
◦ + Shodné intercepty/průměry položek.
◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 .
Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní
CTT: Paralelní testy
Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients.
Organizational Research Methods, 19(4), 651–682. https://doi.org/10.1177/1094428116656239
Paralelní testy: terminologie
původní (Lord a
Novick, 1968)
alternativní
(např. Cho, 2016)
náboj
chybový
rozptyl
intercept
pozorovaný
rozptyl
pravý
skór
kongenerické kongenerické × × × × ×
esenciálně
tau-ekvivalentní
tau-ekvivalentní ✔ × × × konstanta
—
(později tau-ekvivalentní)
paralelní ✔ ✔ × ✔ konstanta
paralelní striktně-paralelní ✔ ✔ ✔ ✔ ✔
Reliabilita
„The term reliability has been used in two ways in the measurement literature.
First, the term has been used to refer to the reliability coefficients of classical
test theory, defined as the correlation between scores on two equivalent forms
of the test, presuming that taking one form has no effect on performance on the
second form.
Second, the term has been used in a more general sense, to refer to the
consistency of scores across replications of a testing procedure, regardless of
how this consistency is estimated or reported (e.g., in terms of standard errors,
reliability coefficients per se, generalizability coefficients, error/tolerance ratios,
item response theory (IRT) information functions, or various indices of
classification consistency).“
(AERA, 2014, s. 33)
AERA, APA, & NCME. (2014). Standards for Educational and Psychological Testing. American Educational Research Association.
(Dvakrát) dvě pojetí reliability
Stabilita měření (operacionalismus).
◦ Bez ohledu na to, jaký je „význam“ měření.
◦ CTT.
Vysvětlený rozptyl (realismus).
◦ Vysvětlený rozptyl čím?
◦ Co považujeme za pravé skóre?
◦ Může sloužit jako estimátor korelace
paralelních testů, nebo mít svůj význam.
◦ Někdy tzv. faCTT.
→ Klasická testová teorie.
◦ Dnešní přednáška.
Relativní srovnání (CTT, GT).
◦ Na obtížnosti položek nám nezáleží.
Absolutní srovnání (GT).
◦ Položky jsou vybrané z univerza všech pol.
◦ Záleží, zda máme snadné či těžké položky.
→ Teorie zobecnitelnosti.
◦ Příští přednáška.
Dvě pojetí reliability v CTT
1. Dimension-free reliability (důraz na korelaci paralelních testů). Operacionalismus.
◦ Odhad vztahu (korelace) dvou paralelních měření týmž testem bez ohledu na to, co test měří.
◦ split-half, alfa, celková omega, glb
2. Model-based reliability (důraz na vysvětlený rozptyl). Realismus.
◦ Odhad vztahu (vysvětleného rozptylu) měřeného atributu a pozorovaného skóru.
◦ Rodina koeficientů omega (McDonaldova hierarchická omega).
◦ „Realistická invaze do operacionalistické CTT“ 
Podrobně viz:
◦ Bentler P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency
Reliability. Psychometrika, 74(1), 137–143. doi:10.1007/s11336-008-9100-1
◦ Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational
Research Methods, 19(4), 651–682. doi:10.1177/1094428116656239
Systematický přístup k reliabilitě
Cho (2016)
Systematický přístup k reliabilitě
Cho (2016)
Spodní hranice reliability
Lower-bound of reliability.
Zpravidla předpokládáme, že unikátní rozptyl
položek je chyba (e).
Spodní hranice reliability
Lower-bound of reliability.
Zpravidla předpokládáme, že unikátní rozptyl
položek je chyba.
Unikátní rozptyl U ale lze rozdělit na:
◦ specifický S (systematický pro daného člověka)
◦ chybový e (náhodný)
Zatímco S přispívá ke korelaci paralelních testů,
chyba e nikoli.
Tyto složky ale nelze oddělit při jediné administraci
testu a S je považován celý za chybu.
◦ Proto v longitudinálních SEM modelech korelovaná
rezidua v čase.
Formativní vs. reflektivní model
(Takto konstruovaný model se někdy označuje jako Raykovovo omega.)
Formativní vs. reflektivní model
Koeficienty
založené na
paralelních
testech
Split-half přístupy
Alfa
Split-half
Reliabilita jako stabilita.
Problémy se split-half:
◦ Nelze ověřit předpoklady paralelnosti.
◦ Test je zkrácený na polovinu.
◦ Existuje velké množství rozdělení testu na dvě poloviny.
◦ Různá rozdělení → různé odhady.
◦ Tohle byl jeden z Cronbachových motivů pro alfu (která je průměrem split-half reliabilit).
Split-half
SPEARMANŮV-BROWNŮV PŘÍSTUP
Spearmanův-Brownův věštecký vzorec:
𝑟𝑥𝑥′
∗
=
𝑁𝑟 𝑥𝑥′
1 + 𝑁 − 1 𝑟 𝑥𝑥′
◦ N – změna délky testu, v případě split-half N=2:
𝑟𝑥𝑥′
∗
=
2𝑟 𝑥𝑥′
1 + 𝑟 𝑥𝑥′
Předpoklad: paralelní poloviny.
◦ Při nedodržení příliš „optimistický“, může
nadhodnocovat nebo podhodnocovat.
GUTTMANOVA 𝜆4
Guttman (1945) publikoval λ1–6:
𝜆4 =
4𝜎 𝑝𝑞
2
𝜎 𝑥
2
◦ 𝜎 𝑝𝑞
2
– kovariance polovin testu
◦ 𝜎 𝑥
2
= 𝜎 𝑝
2
+ 𝜎 𝑞
2
+ 2𝜎 𝑝𝑞
2
– rozptyl celého testu.
𝜆4 = α (ve dvoupoložkovém testu)
◦ tau-ekvivalentní poloviny (jinak podhodnocuje)
◦ Proto je 𝜆4 dnes chápána jako maximalizovaná
split-half pomocí nejlepšího možného rozdělení.
„Příliš dobré rozdělení“→ na malých vzorcích
nadhodnocuje.
Pokud je kovariance větší než kterýkoli z
rozptylů: hrubé podhodnocení.
Založeno na jediné korelaci → nepřesný odhad reliability.
Split-half: Nestejné poloviny
Spearmanův-Brownův i Guttmanův přísup předpokládá stejně dlouhé poloviny testu.
Odvozeno z SB-vzorce (při stejné délce by poloviny byly paralelní):
◦ Horstova (1951)1: 𝑟 𝐻 =
𝑟12 𝑟12
2 +4𝜋1 𝜋2 1−𝑟12
2 −𝑟12
2
2𝜋1 𝜋2 1−𝑟12
2 , kde 𝜋1 a 𝜋2 jsou délky polovin testu.
Odvozeno z Guttmanovy 𝜆4 (při stejné délce by poloviny byly tau-ekvivalentní):
◦ Raju (1977): 𝛽 =
𝜎12
𝜋1 𝜋2 𝜎 𝑥
2
◦ Délku polovin lze odhadnout na základě jejich rozptylu jako 𝜋1 =
𝜎1
2+𝜎12
𝜎 𝑥
2 , 𝜋2 =
𝜎2
2+𝜎12
𝜎 𝑥
2 , což lze dosadit:
◦ Angoffův-Feldtův koeficient (1953, 1975): 𝑟𝐴𝐹 =
4𝜎12
𝜎 𝑥
2−
𝜎1
2−𝜎2
2 2
𝜎 𝑥
2
1 Horst (1951) má chybu ve vzorci 2, pro korektbní vzorec viz např. Warrense (2016).
Položky jako paralelní testy
Cronbachovo alfa (Guttmanova 𝜆3)
𝛼 =
𝑘
𝑘 − 1
1 −
σ𝑖=1
𝑘
𝜎𝑖
2
𝜎 𝑥
2
◦ 𝜎𝑖
2
– rozptyl položky i, σ𝑖=1
𝑘
𝜎𝑖
2
je diagonála var-kovar matice (unikátní rozptyl položek = chyba)
◦ 𝜎 𝑥
2
– rozptyl celého testu, tedy suma var-kovar matice (sdílený rozptyl položek)
◦ k – počet položek (ne celý unikátní rozptyl je chybou, proto korekce
𝑘
𝑘−1
, aby reliabilita mohla být 1)
◦ V případě binárních položek je výsledek shodný s výpočetně jednodušším KR-20.
Předpoklady:
◦ Tau-ekvivalentní položky (při nedodržení je korekce
𝑘
𝑘−1
nedostatečná → podhodnocení reliability).
◦ Jednodimenzionalita (nadhodnocení i podhodnocení dle typu).
◦ Alfa není ukazatelem jednodimenzionality (viz např. Marko, 2016).
Výhody: Přesný odhad (ve srovnání se split-half), jednoduchý/jednoznačný postup, tradice.
Varianty koeficientu alfa
Standardizované alfa.
◦ Pro výpočet použita korelační matice → reliabilita součtu standardizovaných položek.
◦ Použitelné v případě položek s rozdílnou odpověďovou škálou, tedy i pozorovaným rozptylem
a výrazným narušením předpokladu tau-ekvivalence.
Ordinální alfa (Zumbo, Gadermann, Zeisser, 2007)
◦ Alfa spočítané nad maticí polychorických korelací.
◦ Zcela jiný význam, není použitelné pro běžnou praxi.
◦ Není srovnatelné s jinými odhady reliability (viz např. Chalmers, 2017).
Stratifikované Cronbachovo alfa
Nejjednodušší odhad reliability součtu subtestů – Cronbach (1965):
𝛼 𝑠𝑡𝑟𝑎𝑡 = 1 −
σ𝑖=1
𝑘
𝜔𝑖
2
𝜎𝑖
2
1 − 𝑟𝑖𝑖′
𝜎 𝑍
2
◦ 𝜔𝑖 „váha“ testu i
◦ 𝜎𝑖
2
rozptyl testu i
◦ 𝑟𝑖𝑖′ reliabilita testu i
◦ Pro výpočet stačí kovarianční matice a alfy subtestů.
Předpokladem je nejen tau-ekvivalence položek v testech, ale i tau-ekvivalence testů.
◦ A nekorelované chyby měření testů.
Např.: „Jaká bude test-retest korelace celkového IQ skóre, pokud jsou obě měření paralelní?“
Alpha: On the Use, the Misuse, and the Very
Limited Usefulness of Cronbach’s Alpha
Série článků po roce 2009, zejména:
◦ Sijtsma, K. (2009). On the Use, the Misuse, and the Very Limited Usefulness of Cronbach’s Alpha. Psychometrika, 74(1), 107–120. doi
◦ Bentler, P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency Reliability. Psychometrika, 74(1), 137–143. doi
◦ Sijtsma, K., & Pfadt, J. M. (2021). Part II: On the Use, the Misuse, and the Very Limited Usefulness of Cronbach’s Alpha: Discussing
Lower Bounds and Correlated Errors. Psychometrika, 86(4), 843–860. https://doi.org/10.1007/s11336-021-09789-8
◦ V češtině (slovenštině ): Marko, M. (2016). Využitie a zneužitie Cronbachovej alfy pri hodnotení psychodiagnostických nástrojov.
Testfórum, 5(7). https://doi.org/10.5817/TF2016-7-90
Ve stručnosti:
◦ Alfa není odhadem reliability. Alfa je spodní hranicí reliability. Výhody, nevýhody.
◦ Koeficient alfa má své užití, které ale není odhad reliability. „Kontrola kvality“.
◦ Máme lepší estimátory reliability, které ale mohou nadhodnocovat.
◦ Koeficient alfa trpí, nebo naopak netrpí (a.) předpokladem nekorelovaných reziduí, (b.)
jednodimenzionality, (c.) tau-ekvivalence.
◦ Potíže s epistemologickými východisky, různými cíli a způsoby využití.
Alpha: On the Use, the Misuse, and the Very
Limited Usefulness of Cronbach’s Alpha
Moje naprosto nezávazné doporučení:
Kdy ano:
◦ Ukazatel kvality diagnostických nástrojů.
◦ Odhad standardní chyby měření diagnostických nástrojů.
◦ Odhad reliability v případě dlouhých, přiměřeně normálně rozdělených testů s vícebodovými položkami.
◦ → spodní hranice reliability. Plní kontrolu kvality.
Kdy ne:
◦ Odhad reliability výzkumných nástrojů.
◦ Korekce na nereliabilitu.
◦ Odhad reliability kontrolních proměnných v multivariační regresi.
◦ Podhodnocení reliability → nadhodnocení případných korekcí.
Koeficienty
založené na
vysvětleném
rozptylu
omega
FSD
Model-based reliabilita: omega
Rodina koeficientů; Betlerova, Raykovova, ... a zejm. McDonaldova omega.
Obecný vzorec (Bollen, 1980; Raykov, 2001):
𝜔 =
σ𝑖=1
𝑛
𝜆𝑖
2 𝜎 𝜓
2
σ𝑖=1
𝑛
𝜆𝑖
2
𝜎 𝜓
2
+ σ𝑖=1
𝑛
𝜎𝑒;𝑖
2
+ 2 σ𝑖<𝑗 𝜎𝑖𝑗
2
=
σ𝑖=1
𝑛
𝜆𝑖
2 𝜎 𝜓
2
𝜎𝑥
2
◦ 𝜆𝑖 = faktorový náboj položky i
◦ 𝜎 𝜓
2
= rozptyl faktoru, 𝜎 𝑥
2
= celkový pozorovaný rozptyl
◦ 𝜎𝑒;𝑖
2
= reziduální rozptyl položky i
◦ 𝜎𝑖𝑗
2
= kovariance položek i, j
Bez předpokladu tau-ekvivalence (rozdílné faktorové náboje jsou přímo započítány).
Model-based reliabilita: omega
Rodina koeficientů; Betlerova, Raykovova, ... a zejm. McDonaldova omega.
Obecný vzorec (Bollen, 1980; Raykov, 2001):
𝜔 =
σ𝑖=1
𝑛
𝜆𝑖
2 𝜎 𝜓
2
σ𝑖=1
𝑛
𝜆𝑖
2
𝜎 𝜓
2
+ σ𝑖=1
𝑛
𝜎𝑒;𝑖
2
+ 2 σ𝑖<𝑗 𝜎𝑖𝑗
2
=
σ𝑖=1
𝑛
𝜆𝑖
2 𝜎 𝜓
2
𝜎𝑥
2
◦ 𝜆𝑖 = faktorový náboj položky i
◦ 𝜎 𝜓
2
= rozptyl faktoru, 𝜎 𝑥
2
= celkový pozorovaný rozptyl
◦ 𝜎𝑒;𝑖
2
= reziduální rozptyl položky i
◦ 𝜎𝑖𝑗
2
= kovariance položek i, j
Bez předpokladu tau-ekvivalence (rozdílné faktorové náboje jsou zohledněny).
◦ vysvětlený rozptyl
◦ chybový rozptyl
◦ celkový rozptyl
Model-based reliabilita: omega
Použití koeficientu omega nás nutí zamyslet se, co je pravým skóre.
Co je to, co chceme měřit?
A také je nutné uvažovat nad modelem měření.
◦ V případě ordinální CFA Greenova-Yangova (2009) „prahová“ korekce.
◦ Green, S. B., & Yang, Y. (2009). Reliability of Summed Item Scores Using Structural Equation Modeling: An Alternative to Coefficient
Alpha. Psychometrika, 74(1), 155–167. https://doi.org/10.1007/s11336-008-9099-3
Omega: Multidimenzionalita
Omega: Multidimenzionalita
Hierarchická omega (omega hierarchical):
◦ Rozptyl součtu položek vysvětlený daným faktorem.
◦ V případě faktoru druhého řádu (g) jsou specifické rozptyly
faktorů prvního řádu považovány za chybu.
◦ Model based reliabilita: velmi záleží na definici modelu.
Celková omega (omega total):
◦ Rozptyl součtu položek vysvětlený všemi faktory prvního řádu.
◦ Odhad test-retest reliability součtu položek, pokud se míra
žádného z atributů nezmění.
Explorační omega (Revelle):
◦ Celková omega spočítaná na základě EFA.
◦ omega funkce v psych balíčku v R.
Omega: Multidimenzionalita
Přehled dalších (FA) koeficientů
Revellova β (1978): Nejnižší podíl rozptylu, který lze vysvětlit jediným společným
faktorem.
◦ Odhad nejhorší možné split-half reliability.
◦ 𝛽 =
𝑘2ഥ𝜎 𝑖𝑗
𝜎 𝑥
2 , kde ത𝜎𝑖𝑗 je průměrná kovariance napříč dvěma nejhůře rozdělenými polovinami
testu.
Bentlerův koeficient glb (Greatest Lower-Bound of reliability, 1980):
◦ Dimension-free vnitřní konzistence.
◦ Princip: odhad 𝜔 𝑡𝑜𝑡 pro tolik faktorů, kolik jich nevede k negativnímu reziduálnímu rozptylu
žádné z položek.
◦ 𝜌 𝑔𝑙𝑏 = 1 − max
1′Ψ1
1′Σ1
, s pozitivně semi-definitní maticí Σ − Ψ (kde Σ je pozorovaná matice,
Ψ reziduální matice a 1 je jednotková matice.
SW implementace
Pozor: omega v JASPu a JAMOVI je dobrým ukazatelem jen tehdy, pokud
jednodimenzionální model sedí na data.
Balíček psych v R (funkce splitHalf, omega, glb.fa).
◦ Pozor: funkce omega defaultně využívá korelační, nikoliv kovarianční matici (covar=FALSE).
Funkce semTools::compRelSEM odhadne reliabilitu lavaan modelu. Vhodnější
než psych balíček (lepší estimátory).
◦ Dříve funkce reliability, resp. reliabilityL2 (čerstvě depracted).
◦ Vhodné i pro ordinální data – Greenova-Yangova (2009, vzorec 21) korekce.
◦ Možnost exploračního řešení s pomocí funkce semTools::efaUnrotate.
Určitost faktorových skórů
Factor score determinacy.
Koeficienty omega pracují se součtem položek (všechny položky mají váhu 1).
Občas pracujeme s odhady faktorových skórů.
◦ Vážený průměr všech položek; váha je spočítaná na základě f. nábojů a reziduálních rozptylů.
◦ 𝐶 = Σ 𝑦Λ 𝑦
𝑇 (Λ 𝑦Σ 𝑦Λ 𝑦
𝑇 + Θ 𝑦)−1 maticový vzorec výpočtu, není podstatné.
Výhody: Vyšší reliabilita (váhy položek jsou optimálně zvolené).
Nevýhody: Sample dependency (zvláště u malých vzorků nepřesný odhad
parametrů FA modelu).
Factor score determinacy (FSD) = podíl rozptylu odhadu faktorového skóre
vysvětlený faktorem.
Reliabilita rozdílu
Jak reliabilní je používání rozdílu mezi dvěma testy?
◦ Například VIQ a PIQ ve WAIS-III?
𝑟𝑥−𝑦 =
𝜎 𝑥
2 𝑟 𝑥𝑥′+𝜎 𝑦
2 𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦
𝜎 𝑥
2+𝜎 𝑦
2−2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦
,
◦ kde 𝜎𝑥
2 a 𝜎 𝑦
2 jsou rozptyly obou testů, 𝑟𝑥𝑥′ a 𝑟𝑦𝑦′ jejich reliability a 𝑟𝑥𝑦 je jejich
korelace.
◦ jmenovatel je roven rozptylu výsledných rozdílů.
Pokud 𝜎𝑥
2 = 𝜎 𝑦
2 = 𝜎𝑥𝑦
2 (v případě standardizovaných testů), pak:
◦ 𝑟𝑥−𝑦 = 𝜎𝑥𝑦
2 𝑟 𝑥𝑥′+𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦
2−2𝑟 𝑥𝑦
Reliabilita rozdílu
rxx‘ ryy‘ rxy rx-y SDx-y SEx-y CI95%
0,7 0,8 0 0,75 21,2 10,6 20,8
0,7 0,8 0,2 0,69 19,0 10,6 20,8
0,7 0,8 0,4 0,58 16,4 10,6 20,8
0,7 0,8 0,6 0,38 13,4 10,6 20,8
0,7 0,7 0,6 0,25 13,4 11,6 22,8
0,9 0,9 0,8 0,50 9,5 6,7 13,1
0,9 0,9 0,45 0,82 15,7 6,7 13,1
0,6 0,6 0,5 0,20 15,0 13,4 26,3
0,7 0,7 0,65 0,14 12,5 11,6 22,8
Standardní chybu (SE) rozdílu lze
spočítat s pomocí SD a SE vpravo,
nebo prostřednictvím vzorce.
Toto je důvod, proč je problematická
interpretace rozdílu vysoce
korelovaných subtestů.
◦ rxx‘, ryy‘ – reliability testů x a y
◦ rxy – korelace testů x a y
◦ rx-y – reliabilita rozdílu
◦ SDx-y – SD rozdílu
◦ SEx-y – standardní chyba rozdílu
◦ CI95% – šířka 95% intervalu spolehlivosti
Kompozitní
reliabilita
rxx‘ ryy‘ rxy rx-y rx+y
0,7 0,8 0 0,75 0,75
0,7 0,8 0,2 0,69 0,79
0,7 0,8 0,4 0,58 0,82
0,7 0,8 0,6 0,38 0,84
0,7 0,7 0,6 0,25 0,81
0,9 0,9 0,8 0,50 0,94
0,9 0,9 0,45 0,82 0,93
0,6 0,6 0,5 0,20 0,73
0,7 0,7 0,65 0,14 0,82
Srovnání reliability rozdílu a kompozitní reliability
(stratifikovaná Cronbachova alfa).
Je evidentní, že korelace testů má opačný vliv na
výslednou reliabilitu. S rostoucí korelací:
◦ reliabilita rozdílu klesá;
◦ kompozitní reliabilita roste.
Příčinou je rozdílné nasčítání chypového rozptylu podle
„součtového“ vzorce
var 𝐴 ± 𝐵 = var 𝐴 + var 𝐵 ± 2cov 𝐴, 𝐵
◦ Pomůcka: 𝑎 ± 𝑏 2
= 𝑎2
+ 𝑏2
± 2𝑎𝑏
◦ Chyba se vždy sčítá, zatímco pravé skóry se sčítají nebo
odčítají.
Otázky na závěr
Reliabilita čeho?
Pravého skóre?
Stabilita skóre napříč (jakými?) podmínkami?
Reliabilita není jedna.
◦ Záleží na epistemologických východiscích i účelu měření.
Moje osobní doporučení
Alfa je tradiční „deskriptivní“ ukazatel s jednoznačným výpočtem. Je dobré jej uvádět.
◦ Ale jde o podhodnocenou spodní hranici reliability.
◦ Z hlediska model-based reliability může nadhodnocovat i podhodnocovat.
Omega koeficienty nejsou vhodné, pokud faktorový model nedobře popisuje data.
◦ Výjimkou je omega extrahovaná s využitím jediného faktoru, které je vždy lepší než alfa.
V případě nejasné faktorové struktury lze využít některý z glb koeficientů.
◦ V případě velkého vzorku 𝜆4, v případě menšího (ale stále dostatečného) Bentlerovo 𝜌 𝑔𝑙𝑏.
V případě jasné faktorové struktury je vhodnější omega koeficient. Lze si vybrat:
◦ Celková omega: Odhad dimension-free reliability jako uvažované stability skóru.
◦ Hierarchická omega: Odhad model-based reliability jako spolehlivosti usuzování na míru latentního rysu.
Moje osobní doporučení
Nepoužívejte dvoupoložkové testy! 
◦ Pokud je už použijete, ideální je Angoff-Feldtův koeficient, SB ale poslouží rovněž.
Je potřeba vyvážit „jednoduchost“ postupu vs. jeho „vhodnost“ pro dané řešení.
◦ Potíže s omega koeficienty tkví v tom, že existuje mnoho postupů výpočtu s rozdílnými výsledky.
◦ Je jednoduché se do toho zamotat. Pokud vůbec netušíte, alfa (téměř vždy) poslouží!
„Nebezpečné“ situace, kdy je dobré se zamyslet:
◦ Velmi krátké testy (do pěti položek?).
◦ Výrazně komplikovaná faktorová struktura...
◦ ... a zejména korelované chyby měření (reziduální kovariance).
◦ Výrazné porušení předpokladu tau-ekvivalence.
◦ Dvoupoložkové testy o nestejné délce.