Přednáška 6: Model klasické testové teorie 18. 10. 2021 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler Klasická testová teorie (CTT) Tři pilíře CTT (Traub, 1997): ◦ Chyby I. typu, chyba měření jako náhodná veličina, korelace. Koeficient proti oslabení korelace (Spearman, 1904). ◦ Vztah reliability, chyby měření a koncept paralelních testů. ◦ Attenuation formula, 𝑟𝑝𝑞 ∗ = 𝑟 𝑝𝑞 𝑟 𝑝𝑝′ 𝑟 𝑞𝑞′ . Vývoj CTT byl prakticky ukončen do 60. let: Lord a Novick (1968). ◦ Zlepšují se jen estimátory (koeficienty) apod. Klasická testová teorie (CTT) Důležitým impulzem byla Fergusonova komise (1932– 1940). ◦ Striktní požadavek aditivity (a zřetězení). ◦ Psychologové zřetězení nedokázali → CTT není vědeckou teorií měření. ◦ Což ale neznamená, že to není geniální nápad!  ◦ Reakcí byla Stevensova operační teorie měření, která rozšířila definici měření: „...measurement, in the broadest sense, is defined as the assignment of numerals to objects and events according to rules.“ (Stevens, 1946, s. 677). Klíčový pojem je „matching“. ◦ Ve skutečnosti zjednodušení konsenzu z přírodních věd: „Measurement is a method of assigning numbers to magnitudes“ (např. Helmholtz, 1887). ◦ Klasické měření: Existuje magnituda, kterou kvantifikujeme pomocí měřicího nástroje (realismus). ◦ CTT: Magnitudu „vytváříme“ s pomocí pravidla bez ohledu na povahu jevu (operacionalismus). von Helmholtz, H. (1887/1971). An Epistemological Analysis of Counting and Measurement. In R. Kahl (ed.), Selected Writings of Hermann von Helmholtz. Wesleyan University Press. Pro interpretaci doporučuji: Michell, J. (1993). The origins of the representational theory of measurement: Helmholtz, Hölder, and Russell. Studies in History and Philosophy of Science Part A, 24(2), 185–206. doi:10.1016/0039-3681(93)90045-l Odbočka: škálování V 1. pol. 20. stol. se psychologie hodně zaměřovala právě na proces, jak „vznikají“ čísla při měření. Otázka za zlatého bludišťáka: Jak z pozorování vyrobit „škálu“? ◦ U jednoduchých psychofyzikálních dat jasné, problém je s komplexnějšími konstrukty. Řada různých „škál“: Hayes a Patterson (1921), Thurstone (1928), Likert (1932), Guttman (1944), Osgood (1957) a další. Od 50. let však minimální další rozvoj. ◦ Etablování stávajících škál. ◦ Rozvoj faktorové analýzy (omezené využití u některých škál a naopak realistické vysvětlení toho, proč škály fungují). ◦ Pokročilejší postupy jsou komplikované a nemají všeobecné využití. ◦ Rozvoj měření v psychologii vedl ke standardizaci postupů. Měření v přírodních vědách Existuje nějaký atribut, který opakovaně měříme tím stejným nástrojem/procedurou. Každé jedno měření má nějakou chybou, kterou neznáme. ◦ Jednotlivá měření se pohybují okolo skutečné hodnoty v důsledku náhodné chyby měření. Výsledkem opakovaných měření je proto rozložení, které použijeme pro odhad skutečné hodnoty: ◦ Průměr rozložení: odhad míry atributu, E 𝑥 = σ𝑖=1 𝑁 𝑥 𝑖 𝑁 . ◦ 𝑁 – počet měření; 𝑥𝑖 – i-tá naměřená hodnota; E 𝑥 – expected value (průměr, nejpravděpodobnější hodnota příštího měření. ◦ Standardní chyba průměru: odhad standardní chyby měření, 𝑆𝐸 = 𝑠 𝑑 𝑁 ◦ 𝑆𝐸 – standardní chyba měření (Standard Error), 𝑠 𝑑 – výběrová směrodatná odchylka jednotlivých měření. ◦ Lze využít pro konstrukci CI atd. (za pomoci Studentova t-rozložení). Předpoklady Odhad průměru (standardní chyba měření) je přibližně normálně rozložený. ◦ Centrální limitní teorém: potřebujeme alespoň 30 měření. ◦ Příklady zde a zde  To v psychologii není možné. Nemůžu člověka měřit 30krát tím stejným testem (vyjma jednoduchých psychofyzikálních úloh). Kudy z toho ven? Shodná chyba měření pro všechny respondenty. ◦ Nikoliv „standardní chybu průměru“ pro každého respondenta zvlášť. Jednotlivá měření jako paralelní testy. Paralelní testy „Dobré“ měření je takové, kdy různí lidé v různých časech dojdou různými nástroji ke stejným naměřeným hodnotám, pokud se míra samotného objektu nezměnila. Paralelní testy/měření jsou takové, pro které platí: ◦ A. Pravý skór je v paralelních testech a pro každý měřený subjekt stejný ◦ 𝑇 = E 𝑋 = lim 𝑛→∞ σ𝑖=1 𝑛 𝑋 𝑖 𝑛 . ◦ B. Rozptyl pravých skórů je v obou testech stejný (důsledek A). ◦ C. Chybový rozptyl je v paralelních testech a pro každý subjekt stejný. ◦ Důsledkem je navíc shodný rozptyl pozorovaných skórů obou testů. Paralelní testy Korelace paralelních testů je reliabilita: 𝑟 𝑥𝑥′ = cor 𝑥, 𝑥′ ◦ CTT postup s paralelními testy a tradiční „fyzikální“ měření vedou ke stejným výsledkům. ◦ To je právě Spearmanův objev. ◦ Test-retest, paralelní formy, shoda posuzovatelů, split-half... Původně CTT považovala za paralelní testy pouze jejich výsledek (celkové skóre). ◦ Způsob konstrukce tohoto skóre je irelevantní. ◦ Operacionalismus: pravé skóre (a tedy měřený atribut) je definovaný měřením. CTT tedy chápe reliabilitu jako „stabilitu“ odhadu pravého skóre napříč podmínkami (paralelním testováním). S postupem času otázka: Jak se celkové skóre vytváří? ◦ Položky jako paralelní testy. Paralelní testy Potíž v sociálních vědách je ale ten, že paralelní testy neexistují. ◦ Jde jen o hypotetický koncept (model). Položky se liší... ◦ ... svou obtížností, ◦ ... těsností vztahu s univerzem, ◦ ... mírou náhodné chyby, a respondenti se rovněž napříč měřeními vyvíjejí. Proto uvažujeme spíše o „míře paralelnosti“. CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝑖 𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒𝑖 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní ◦ 𝑋𝑖𝑝 – pozorované skóre osoby 𝑝 na pol. 𝑖 ◦ 𝑖𝑖, 𝑎𝑖 – intercept a faktorový náboj pol. 𝑖 ◦ 𝜏 𝑝 – pravé skóre osoby 𝑝 ◦ 𝑒𝑖𝑝 – náhodná chyba osoby 𝑝 na pol. 𝑖 (reziduum) ◦ 𝑒𝑖𝑝~N 0, var 𝑒𝑖 – tato chyba pochází z normálního rozložení s průměrem 0 a rozptylem var 𝑒𝑖 CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝑖 𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒𝑖 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒𝑖 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. 𝑎𝑖 = 𝑎 ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖𝑖 + 𝑎𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. 𝑎𝑖 = 𝑎, var 𝑒𝑖𝑝 = var 𝑒 ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): 𝑋𝑖𝑝 = 𝑖 + 𝑎𝜏 𝑝 + 𝑒𝑖𝑝, 𝑒𝑖𝑝~N 0, var 𝑒 Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ◦ Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ◦ + Shodné nestandardizované faktorové náboje („měřítko“ položky). Paralelní: Položky měří se stejnou velikostí chyby. ◦ + Shodné reziduální rozptyly. Striktně paralelní: Stejná obtížnost všech položek. 𝑎𝑖 = 𝑎, var 𝑒𝑖𝑝 = var 𝑒 , 𝑖𝑖 = 𝑖 ◦ + Shodné intercepty/průměry položek. ◦ U binárních položek paralelní = striktně paralelní, protože var 𝑋𝑖 = 𝑃𝑖 1 − 𝑃𝑖 . Někdy též kongenerické → esenciálně tau-ekvivalentní → tau-ekvivalentní → paralelní CTT: Paralelní testy Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(4), 651–682. https://doi.org/10.1177/1094428116656239 Reliabilita „The term reliability has been used in two ways in the measurement literature. First, the term has been used to refer to the reliability coefficients of classical test theory, defined as the correlation between scores on two equivalent forms of the test, presuming that taking one form has no effect on performance on the second form. Second, the term has been used in a more general sense, to refer to the consistency of scores across replications of a testing procedure, regardless of how this consistency is estimated or reported (e.g., in terms of standard errors, reliability coefficients per se, generalizability coefficients, error/tolerance ratios, item response theory (IRT) information functions, or various indices of classification consistency).“ (AERA, 2014, s. 33) AERA, APA, & NCME. (2014). Standards for Educational and Psychological Testing. American Educational Research Association. (Dvakrát) dvě pojetí reliability Stabilita měření (operacionalismus). ◦ Bez ohledu na to, jaký je „význam“ měření. Vysvětlený rozptyl (realismus). ◦ Vysvětlený rozptyl čím? ◦ Co považujeme za pravé skóre? → Klasická testová teorie. ◦ Dnešní přednáška. Relativní srovnání (CTT, GT). ◦ Na obtížnosti položek nám nezáleží. Absolutní srovnání (GT). ◦ Položky jsou vybrané z univerza všech pol. ◦ Záleží, zda máme snadné či těžké položky. → Teorie zobecnitelnosti. ◦ Příští přednáška. Dvě pojetí reliability v CTT 1. Dimension-free reliability (důraz na korelaci paralelních testů). Operacionalismus. ◦ Odhad vztahu (korelace) dvou paralelních měření týmž testem bez ohledu na to, co test měří. ◦ split-half, alfa, celková omega, glb 2. Model-based reliability (důraz na vysvětlený rozptyl). Realismus. ◦ Odhad vztahu (vysvětleného rozptylu) měřeného atributu a pozorovaného skóru. ◦ Rodina koeficientů omega (McDonaldova hierarchická omega). ◦ „Realistická invaze do operacionalistické CTT“  Podrobně viz: ◦ Bentler P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency Reliability. Psychometrika, 74(1), 137–143. doi:10.1007/s11336-008-9100-1 ◦ Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(4), 651–682. doi:10.1177/1094428116656239 Systematický přístup k reliabilitě Cho (2016) Systematický přístup k reliabilitě Cho (2016) Spodní hranice reliability Lower-bound of reliability. Zpravidla předpokládáme, že unikátní rozptyl položek je chyba (e). Spodní hranice reliability Lower-bound of reliability. Zpravidla předpokládáme, že unikátní rozptyl položek je chyba. Unikátní rozptyl U ale lze rozdělit na: ◦ specifický S (systematický pro daného člověka) ◦ chybový e (náhodný) Zatímco S přispívá ke korelaci paralelních testů, chyba e nikoli. Tyto složky ale nelze oddělit při jediné administraci testu a S je považován celý za chybu. ◦ Proto v longitudinálních SEM modelech korelovaná rezidua v čase. Formativní vs. reflektivní model (Takto konstruovaný model se někdy označuje jako Raykovovo omega.) Formativní vs. reflektivní model Koeficienty založené na paralelních testech Split-half přístupy Alfa Split-half Reliabilita jako stabilita. Problémy se split-half: ◦ Nelze ověřit předpoklady paralelnosti. ◦ Test je zkrácený na polovinu. ◦ Existuje velké množství rozdělení testu na dvě poloviny. ◦ Různá rozdělení → různé odhady. ◦ Tohle byl jeden z Cronbachových motivů pro alfu (která je průměrem split-half reliabilit). Split-half SPEARMANŮV-BROWNŮV PŘÍSTUP Spearmanův-Brownův věštecký vzorec: 𝑟𝑥𝑥′ ∗ = 𝑁𝑟 𝑥𝑥′ 1 + 𝑁 − 1 𝑟 𝑥𝑥′ ◦ N – změna délky testu, v případě split-half N=2: 𝑟𝑥𝑥′ ∗ = 2𝑟 𝑥𝑥′ 1 + 𝑟 𝑥𝑥′ Předpoklad: paralelní poloviny. ◦ Při nedodržení příliš „optimistický“, může nadhodnocova nebo podhodnocovat. GUTTMANOVA 𝜆4 Guttman (1945) publikoval λ1–6: 𝜆4 = 4𝜎 𝑝𝑞 2 𝜎 𝑥 2 ◦ 𝜎 𝑝𝑞 2 – kovariance polovin testu ◦ 𝜎 𝑥 2 = 𝜎 𝑝 2 + 𝜎 𝑞 2 + 2𝜎 𝑝𝑞 2 – rozptyl celého testu. 𝜆4 = α (ve dvoupoložkovém testu) ◦ tau-ekvivalentní poloviny (jinak podhodnocuje) ◦ Proto je 𝜆4 dnes chápána jako maximalizovaná split-half pomocí nejlepšího možného rozdělení. „Příliš dobré rozdělení“→ na malých vzorcích nadhodnocuje. Pokud je kovariance větší než kterýkoli z rozptylů: hrubé podhodnocení. Založeno na jediné korelaci → nepřesný odhad reliability. Split-half: Nestejné poloviny Spearmanův-Brownův i Guttmanův přísup předpokládá stejně dlouhé poloviny testu. Odvozeno z SB-vzorce (při stejné délce by poloviny byly paralelní): ◦ Horstova (1951)1: 𝑟 𝐻 = 𝑟12 𝑟12 2 +4𝜋1 𝜋2 1−𝑟12 2 −𝑟12 2 2𝜋1 𝜋2 1−𝑟12 2 , kde 𝜋1 a 𝜋2 jsou délky polovin testu. Odvozeno z Guttmanovy 𝜆4 (při stejné délce by poloviny byly tau-ekvivalentní): ◦ Raju (1977): 𝛽 = 𝜎12 𝜋1 𝜋2 𝜎 𝑥 2 ◦ Délku polovin lze odhadnout na základě jejich rozptylu jako 𝜋1 = 𝜎1 2+𝜎12 𝜎 𝑥 2 , 𝜋2 = 𝜎2 2+𝜎12 𝜎 𝑥 2 , což lze dosadit: ◦ Angoffův-Feldtův koeficient (1953, 1975): 𝑟𝐴𝐹 = 4𝜎12 𝜎 𝑥 2− 𝜎1 2−𝜎2 2 2 𝜎 𝑥 2 1 Horst (1951) má chybu ve vzorci 2, pro korektbní vzorec viz např. Warrense (2016). Cronbachovo alfa (Guttmanova 𝜆3) 𝛼 = 𝑘 𝑘 − 1 1 − σ𝑖=1 𝑘 𝜎𝑖 2 𝜎 𝑥 2 ◦ 𝜎𝑖 2 – rozptyl položky i, σ𝑖=1 𝑘 𝜎𝑖 2 je diagonála var-kovar matice (unikátní rozptyl položek = chyba) ◦ 𝜎 𝑥 2 – rozptyl celého testu, tedy suma var-kovar matice (sdílený rozptyl položek) ◦ k – počet položek (ne celý unikátní rozptyl je chybou, proto korekce 𝑘 𝑘−1 , aby reliabilita mohla být 1) ◦ V případě binárních položek je výsledek shodný s výpočetně jednodušším KR-20. Předpoklady: ◦ Tau-ekvivalentní položky (při nedodržení je korekce 𝑘 𝑘−1 nedostatečná → podhodnocení reliability). ◦ Jednodimenzionalita (nadhodnocení i podhodnocení dle typu). ◦ Alfa není ukazatelem jednodimenzionality (viz např. Marko, 2016). Výhody: Přesný odhad (ve srovnání se split-half), jednoduchý/jednoznačný postup, tradice. Varianty koeficientu alfa Standardizované alfa. ◦ Pro výpočet použita korelační matice → reliabilita součtu standardizovaných položek. ◦ Použitelné v případě položek s rozdílnou odpověďovou škálou, tedy i pozorovaným rozptylem a výrazným narušením předpokladu tau-ekvivalence. Ordinální alfa (Zumbo, Gadermann, Zeisser, 2007) ◦ Alfa spočítané nad maticí polychorických korelací. ◦ Zcela jiný význam, není použitelné pro běžnou praxi. ◦ Není srovnatelné s jinými odhady reliability (viz např. Chalmers, 2017). Stratifikované Cronbachovo alfa Nejjednodušší odhad reliability součtu subtestů – Cronbach (1965): 𝛼 𝑠𝑡𝑟𝑎𝑡 = 1 − σ𝑖=1 𝑘 𝜔𝑖 2 𝜎𝑖 2 1 − 𝑟𝑖𝑖′ 𝜎 𝑍 2 ◦ 𝜔𝑖 „váha“ testu i ◦ 𝜎𝑖 2 rozptyl testu i ◦ 𝑟𝑖𝑖′ reliabilita testu i ◦ Pro výpočet stačí kovarianční matice a alfy subtestů. Předpokladem je nejen tau-ekvivalence položek v testech, ale i tau-ekvivalence testů. ◦ A nekorelované chyby měření testů. Např.: „Jaká bude test-retest korelace celkového IQ skóre, pokud jsou obě měření paralelní?“ Koeficienty založené na vysvětleném rozptylu omega FSD Model-based reliabilita: omega Rodina koeficientů; Betlerova, Raykovova, ... a zejm. McDonaldova omega. Obecný vzorec (Bollen, 1980; Raykov, 2001): 𝜔 = σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 + σ𝑖=1 𝑛 𝜎𝑒;𝑖 2 + 2 σ𝑖<𝑗 𝜎𝑖𝑗 2 = σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 𝜎𝑥 2 ◦ 𝜆𝑖 = faktorový náboj položky i ◦ 𝜎 𝜓 2 = rozptyl faktoru, 𝜎 𝑥 2 = celkový pozorovaný rozptyl ◦ 𝜎𝑒;𝑖 2 = reziduální rozptyl položky i ◦ 𝜎𝑖𝑗 2 = kovariance položek i, j Bez předpokladu tau-ekvivalence (rozdílné faktorové náboje jsou přímo započítány). Model-based reliabilita: omega Rodina koeficientů; Betlerova, Raykovova, ... a zejm. McDonaldova omega. Obecný vzorec (Bollen, 1980; Raykov, 2001): 𝜔 = σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 + σ𝑖=1 𝑛 𝜎𝑒;𝑖 2 + 2 σ𝑖<𝑗 𝜎𝑖𝑗 2 = σ𝑖=1 𝑛 𝜆𝑖 2 𝜎 𝜓 2 𝜎𝑥 2 ◦ 𝜆𝑖 = faktorový náboj položky i ◦ 𝜎 𝜓 2 = rozptyl faktoru, 𝜎 𝑥 2 = celkový pozorovaný rozptyl ◦ 𝜎𝑒;𝑖 2 = reziduální rozptyl položky i ◦ 𝜎𝑖𝑗 2 = kovariance položek i, j Bez předpokladu tau-ekvivalence (rozdílné faktorové náboje jsou zohledněny). ◦ vysvětlený rozptyl ◦ chybový rozptyl ◦ celkový rozptyl Model-based reliabilita: omega Použití koeficientu omega nás nutí zamyslet se, co je pravým skóre. Co je to, co chceme měřit? Omega: Multidimenzionalita Omega: Multidimenzionalita Hierarchická omega (omega hierarchical): ◦ Rozptyl součtu položek vysvětlený daným faktorem. ◦ V případě faktoru druhého řádu (g) jsou specifické rozptyly faktorů prvního řádu považovány za chybu. ◦ Model based reliabilita: velmi záleží na definici modelu. Celková omega (omega total): ◦ Rozptyl součtu položek vysvětlený všemi faktory prvního řádu. ◦ Odhad test-retest reliability součtu položek, pokud se míra žádného z atributů nezmění. Explorační omega (Revelle): ◦ Celková omega spočítaná na základě EFA. ◦ omega funkce v psych balíčku v R. Omega: Multidimenzionalita Přehled dalších (FA) koeficientů Revellova β (1978): Nejnižší podíl rozptylu, který lze vysvětlit jediným společným faktorem. ◦ Odhad nejhorší možné split-half reliability. ◦ 𝛽 = 𝑘2ഥ𝜎 𝑖𝑗 𝜎 𝑥 2 , kde ത𝜎𝑖𝑗 je průměrná kovariance napříč dvěma nejhůře rozdělenými polovinami testu. Bentlerův koeficient glb (Greatest Lower-Bound of reliability, 1980): ◦ Dimension-free vnitřní konzistence. ◦ Princip: odhad 𝜔 𝑡𝑜𝑡 pro tolik faktorů, kolik jich nevede k negativnímu reziduálnímu rozptylu žádné z položek. ◦ 𝜌 𝑔𝑙𝑏 = 1 − max 1′Ψ1 1′Σ1 , s pozitivně semi-definitní maticí Σ − Ψ (kde Σ je pozorovaná matice, Ψ reziduální matice a 1 je jednotková matice. SW implementace Pozor: omega v JASPu a JAMOVI je dobrým ukazatelem jen tehdy, pokud jednodimenzionální model sedí na data. Balíček psych v R (funkce splitHalf, omega, glb.fa). ◦ Pozor: funkce omega defaultně využívá korelační, nikoliv kovarianční matici. Funkce reliability v semTools balíčku odhadne reliabilitu lavaan modelu. Vhodnější než psych balíček (lepší estimátory). ◦ Pro hierarchické modely (faktory vyššího řádu) funkce reliabilityL2. ◦ Vhodné i pro ordinální data – Greenova-Yangova (2009, vzorec 21) korekce. ◦ Možnost exploračního řešení s pomocí funkce semTools::efaUnrotate. Určitost faktorových skórů Factor score determinacy. Koeficienty omega pracují se součtem položek (všechny položky mají váhu 1). Občas pracujeme s odhady faktorových skórů. ◦ Vážený průměr všech položek; váha je spočítaná na základě f. nábojů a reziduálních rozptylů. ◦ 𝐶 = Σ 𝑦Λ 𝑦 𝑇 (Λ 𝑦Σ 𝑦Λ 𝑦 𝑇 + Θ 𝑦)−1 maticový vzorec výpočtu, není podstatné. Výhody: Vyšší reliabilita (váhy položek jsou optimálně zvolené). Nevýhody: Sample dependency (zvláště u malých vzorků nepřesný odhad parametrů FA modelu). Factor score determinacy (FSD) = podíl rozptylu odhadu faktorového skóre vysvětlený faktorem. Reliabilita rozdílu Jak reliabilní je používání rozdílu mezi dvěma testy? ◦ Například VIQ a PIQ ve WAIS-III? 𝑟𝑥−𝑦 = 𝜎 𝑥 2 𝑟 𝑥𝑥′+𝜎 𝑦 2 𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 𝜎 𝑥 2+𝜎 𝑦 2−2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 , ◦ kde 𝜎𝑥 2 a 𝜎 𝑦 2 jsou rozptyly obou testů, 𝑟𝑥𝑥′ a 𝑟𝑦𝑦′ jejich reliability a 𝑟𝑥𝑦 je jejich korelace. ◦ jmenovatel je roven rozptylu výsledných rozdílů. Pokud 𝜎𝑥 2 = 𝜎 𝑦 2 = 𝜎𝑥𝑦 2 (v případě standardizovaných testů), pak: ◦ 𝑟𝑥−𝑦 = 𝜎𝑥𝑦 2 𝑟 𝑥𝑥′+𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦 2−2𝑟 𝑥𝑦 Reliabilita rozdílu rxx‘ ryy‘ rxy rx-y SDx-y SEx-y CI95% 0,7 0,8 0 0,75 21,2 10,6 20,8 0,7 0,8 0,2 0,69 19,0 10,6 20,8 0,7 0,8 0,4 0,58 16,4 10,6 20,8 0,7 0,8 0,6 0,38 13,4 10,6 20,8 0,7 0,7 0,6 0,25 13,4 11,6 22,8 0,9 0,9 0,8 0,50 9,5 6,7 13,1 0,9 0,9 0,45 0,82 15,7 6,7 13,1 0,6 0,6 0,5 0,20 15,0 13,4 26,3 0,7 0,7 0,65 0,14 12,5 11,6 22,8 Standardní chybu (SE) rozdílu lze spočítat s pomocí SD a SE vpravo, nebo prostřednictvím vzorce. Toto je důvod, proč je problematická interpretace rozdílu vysoce korelovaných subtestů. ◦ rxx‘, ryy‘ – reliability testů x a y ◦ rxy – korelace testů x a y ◦ rx-y – reliabilita rozdílu ◦ SDx-y – SD rozdílu ◦ SEx-y – standardní chyba rozdílu ◦ CI95% – šířka 95% intervalu spolehlivosti Kompozitní reliabilita rxx‘ ryy‘ rxy rx-y rx+y 0,7 0,8 0 0,75 0,75 0,7 0,8 0,2 0,69 0,79 0,7 0,8 0,4 0,58 0,82 0,7 0,8 0,6 0,38 0,84 0,7 0,7 0,6 0,25 0,81 0,9 0,9 0,8 0,50 0,94 0,9 0,9 0,45 0,82 0,93 0,6 0,6 0,5 0,20 0,73 0,7 0,7 0,65 0,14 0,82 Srovnání reliability rozdílu a kompozitní reliability (stratifikovaná Cronbachova alfa). Je evidentní, že korelace testů má opačný vliv na výslednou reliabilitu. S rostoucí korelací: ◦ reliabilita rozdílu klesá; ◦ kompozitní reliabilita roste. Příčinou je rozdílné nasčítání chypového rozptylu podle „součtového“ vzorce var 𝐴 ± 𝐵 = var 𝐴 + var 𝐵 ± 2cov 𝐴, 𝐵 ◦ Pomůcka: 𝑎 ± 𝑏 2 = 𝑎2 + 𝑏2 ± 2𝑎𝑏 ◦ Chyba se vždy sčítá, zatímco pravé skóry se sčítají nebo odčítají. Otázky na závěr Reliabilita čeho? Pravého skóre? Stabilita skóre napříč (jakými?) podmínkami? Reliabilita není jedna. ◦ Záleží na epistemologických východiscích i účelu měření. Moje osobní doporučení Alfa je tradiční „deskriptivní“ ukazatel s jednoznačným výpočtem. Je dobré jej uvádět. ◦ Ale jde o podhodnocenou spodní hranici reliability. ◦ Z hlediska model-based reliability může nadhodnocovat i podhodnocovat. Omega koeficienty nejsou vhodné, pokud faktorový model nedobře popisuje data. ◦ Výjimkou je omega extrahovaná s využitím jediného faktoru, které je vždy lepší než alfa. V případě nejasné faktorové struktury lze využít některý z glb koeficientů. ◦ V případě velkého vzorku 𝜆4, v případě menšího (ale stále dostatečného) Bentlerovo 𝜌 𝑔𝑙𝑏. V případě jasné faktorové struktury je vhodnější omega koeficient. Lze si vybrat: ◦ Celková omega: Odhad dimension-free reliability jako uvažované stability skóru. ◦ Hierarchická omega: Odhad model-based reliability jako spolehlivosti usuzování na míru latentního rysu. Moje osobní doporučení Je potřeba vyvážit „jednoduchost“ postupu vs. jeho „vhodnost“ pro dané řešení. ◦ Potíže s omega koeficienty tkví v tom, že existuje mnoho postupů výpočtu s rozdílnými výsledky. ◦ Je jednoduché se do toho zamotat. Pokud vůbec netušíte, alfa (téměř vždy) poslouží! „Nebezpečné“ situace, kdy je dobré se zamyslet: ◦ Velmi krátké testy (do pěti položek?). ◦ Výrazně komplikovaná faktorová struktura... ◦ ... a zejména korelované chyby měření (reziduální kovariance). ◦ Výrazné porušení předpokladu tau-ekvivalence. ◦ Dvoupoložkové testy o nestejné délce.