U|\| T Katedra l\l í psychologie FSS Přednáška 2: Chyba měření a reliabilita v CTI 24. 9. 2019 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler Obsah přednášky 1. Koncept reliability v klasické testové teorii (CTT) ° Model měření CTT. ° Koncept paralelních testů. 2. Pokročilé odhady reliability v rámci CTT. 3. Využití reliability (a validity) pro praktické závěry o výsledcích měření. ° Různé druhy chyb měření. ° Konstrukce intervalů spolehlivosti. Klasická testová teorie (CTT) Klasická testová teorie stojí na třech pilířích/objevech (Traub, 1997): ° Existence chyby měření I. typu (nezpůsobené ničím jiným). 0 Chyba měření je náhodná veličina. ° Koncept korelace. Spearman (1904) přišel s koeficientem proti oslabení korelace (^attenuation coefficient"), chybu měření parametrizoval a umožnil vznik CTT. ° Původním účelem byl odhad korelací nezkreslených chybou měření. Klasická testová teorie (CTT) Důležitým impulzem byla Fergusonova komise (1932- 1940). Striktní požadavek aditivity (a zřetězení). 0 Psychologové zřetězení nedokázali -> CTT není vědeckou teorií měření. ° Reakcí byla Stevensova „nevědecká" „operační teorie měření", která rozšířila definici měření: „...measurement, in the broadest sense, is defined as the assignment of numerals to objects and events according to rules." (Stevens, 1946, s. 677). Klíčový pojem je „matching". ° Ve skutečnosti zjednodušení konsenzu z přírodních věd: ^Measurement is a method of assigning numbers to magnitudes" (např. Helmholtz, 1887). Vývoj CTT byl prakticky ukončen do 60. let: Lord a Novick (1968). Klasická testová teorie (CTT) CTT model: pozorované skóre je lineární funkcí pravého skóre. Koncept měření jako paralelních testů. Reliabilita popisuje těsnost vztahu... ° paralelních testů 0 pravého a pozorovaného skóre Operacionalismus: Definice atributu (pravého skóru) skrze měřicí nástroj. Pravý skór Tp predikuje pozorovaný skór Xp s nějakou mírou chyby ep. Protože chyba nekoreluje s atributem, vztah platí přímo pro rozptyly proměnných: Paralelní testy „Dobré" měření je takové, kdy různí lidé v různých časech dojdou různými nástroji ke stejným naměřeným hodnotám, pokud se míra samotného objektu nezměnila. Postup fyzikálního měření (např. délky): ° Změřím objekt n-krát a získám n měření délky označených jako dj. ° Bodový odhad délky je průměr z těchto měření: E(d) = 1 ° To E(cQ je „expected value" - odhad měřené hodnoty. 0 Chyba tohoto měření (Standard Error /of Measurement/) je: ° Pro jediné měření: SE = sd , kde sd je výběrová směrodatná odchylka pozorovaných hodnot di . ° Pro průměr z n měření: SE = ^= (standardní chyba průměru!). ■\/n ° (A použijeme Studentovo t-rozložení, protože sd je pouze pozorovaným odhadem populační od.) Paralelní testy Na konceptu paralelních testů Spearman založil koncept reliability. ° Na reliabilitě stojí zase CTT. Paralelní testy/měření jsou takové, pro které platí: ° A. Pravý skór je v obou testech a pro každý měřený subjekt stejný o t = e(x) = lim n—>co n ° B. Rozptyl pravých skórů je v obou testech stejný (důsledek A). 0 C. Chybový rozptyl je v obou testech a pro každý subjekt stejný. ° Důsledkem je navíc shodný rozptyl pozorovaných skórů obou testů. Tyto předpoklady jsou v sociálních vědách příliš striktní, a proto později budeme pracovat spíše s „mírou paralelnosti". CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): ^ip H Q>iTp ~l~ @ip Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. ° Shodné reziduálni rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ° Shodné intercepty/průměry položek. ° U binárních položek paralelní = striktně paralelní, protože varpQ) = Pt(l — Pí). Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): ^ip H Q>iTp ~l~ @ip Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. ° Shodné reziduálni rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ° Shodné intercepty/průměry položek. ° U binárních položek paralelní = striktně paralelní, protože varpQ) = Pt(l — Pí). Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): ^ip H + 6ip Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. at ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. ° Shodné reziduálni rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ° Shodné intercepty/průměry položek. ° U binárních položek paralelní = striktně paralelní, protože varpQ) = Pt(l — Pí). = a Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): ^ip H + 6ip Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. at = a, var(e;p) = var(e) ° Shodné reziduálni rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ° Shodné intercepty/průměry položek. ° U binárních položek paralelní = striktně paralelní, protože varpQ) = Pt(l — Pí). Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. ° Shodné reziduálni rozptyly. Striktně paralelní: Stejná obtížnost všech položek. at = a,vdiľ(eip) = var(e), it ° Shodné intercepty/průměry položek. ° U binárních položek paralelní = striktně paralelní, protože varpQ) = Pt(l — Pí). = l Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní CTT: Paralelní testy (a) Parallel model (b) Tau-equivalent model (c) Congeneric model Var(e^) — Var(e^) = Var(e3) Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(A), 651-682. https://doi.orR/10.1177/1094428116656239 Reliabilita Reliabilita rxxr testu x je definovaná jako vysvětlený rozptyl pozorovaného skóre pravým skóre: ^2 ^2 ^2 ^2 ^2 r _ r/?^ — ^ — ffr °x ~ °e ^ <*e XX1 vn ) 2 7 i 2 2 2 0 Úpravy platí, protože dosazujeme podle vzorce o% — + Jrxxf je korelace atributu a měření (korelace pravého a pozorovaného skóre), pak... ... reliabilita rxxr je korelace dvou paralelních testů. Attenuation formula (korekce proti oslabení): jrpp'rqq' ° Kde rpq je odhad korelace pravých skórů p, q, rpq je pozorovaná korelace testů p aga rpp>, rqq> jsou jejich reliability. Protože korelace pravých skórů r*q < 1, lze odhadnout maximální možnou pozorovanou korelaci 2 testů jako: Ipq — yj^pp'^qq' ° Korelace nemůže být vyšší než odmocnina součinu reliabilit! Fig. 7.1 Spearman s model of attenuation and reliability. Panel A: The true relationship between p and q is attenuated by the error in p' and q'. Panel B: the correlation between the hitent variable p and the observed variable p' may be estimated from the correlation of p' with a parallel test. Pozor, notace na diagramu neodpovídá notaci jinde. Reliabilita Doporučuj'i: Bentler P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency Reliability. Psychometrika, 74(1), 137-143. doi:10.1007/sll336-008-9100-l Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(4), 651-682. doi:10.1177/1094428116656239 r , = — = °* = 1 - — XX' ol (JT2 + ol Ox Dvě klíčová pojetí reliability jako vnitřní konzistence podle toho, co považují za 1. Dimension free reliability (důraz na korelaci paralelních testů) ° Odhad vztahu (korelace) dvou paralelních měření týmž testem bez ohledu na to, co test měří. ° split-half, alfa, Revellova celková omega 2. Model based reliability (důraz na vysvětlený rozptyl) ° Odhad vztahu (vysvětleného rozptylu) měřeného atributu a pozorovaného skóru. ° Rodina koeficientů omega (McDonaldova omega, hierarchická omega, celková omega). Reliabilita Table 3. Names of Reliability Coefficients Currently Used in the Literature. Unidimensional Multidimensional Split-Half General General Parallel Spearman-Brown formula Standardized alpha (Not yet published) Tau-equivalent Flanagan-Rulon formula Flanagan formula Rulon formula Guttman's X4 Cronbach's alpha Coefficient alpha Guttman's A3 Hoyt method KR-20 Stratified alpha Congeneric Raju (1970) coefficient Angoff-Feldt coefficient Angoff coefficient Composite reliability Construct reliability Congeneric reliability Omega Unidimensional omega Raju (1977) coefficient Classical congeneric Omega Omega total McDonald's omega Multidimensional omega reliability coefficient Cho (2016) Cronbachovo alfa (Guttmanova A3) a =---1 1 - k — 1 y a x ° of - rozptyl položky /, Ylt=i o? je diagonála var-kovar matice (unikátni rozptyl položek = chyba) ° aj - rozptyl celého testu, tedy suma var-kovar matice (sdílený rozptyl položek) k ° k - počet položek (ne celý unikátni rozptyl je chybou, proto korekce -—, aby reliabilita mohla být 1) ° V případě binárních položek je výsledek shodný s výpočetně jednodušším KR-20. Předpoklady: k ° Tau-ekvivalentní položky (při nedodržení je korekce — nedostatečná -> podhodnocení reliability). ° Jednodimenzionalita (nadhodnocení i podhodnocení dle typu). ° Alfa není ukazatelem jednodimenzionality (viz např. Marko, 2016). Výhody: Přesný odhad (ve srovnání se split-half), tradice. Varianty koeficientu alfa Standardizované alfa. ° Pro výpočet použita korelační matice -> reliabilita součtu standardizovaných položek. ° Použitelné v případě položek s rozdílnou odpověďovou škálou, tedy i pozorovaným rozptylem a výrazným narušením předpokladu tau-ekvivalence. Ordinální alfa (Zumbo, Gadermann, Zeisser, 2007) 0 Alfa spočítané nad maticí polychorických korelací. 0 Zcela jiný význam, není použitelné pro běžnou praxi. ° Není srovnatelné s jinými odhady reliability (viz např. Chalmers, 2017). Split-half O v x SPEARMAN-BROWNUV PŘISTUP GUTTMANOVA X, Spearmanův-Brownův věštecký vzorec: Nr i ± TĚ i yy' rxx' = i + (ív - l)r XX 0 N - změna délky testu, v případě split-half N=2. Předpoklad: paralelní položky. ° Při nedodržení příliš „optimistický" může nadhodnocovat. ° Založeno na jediné korelaci -> nepřesný odhad. Guttman (1945) publikoval A^: A4 — 'pq x 0 °pq ~ kovariance polovin testu 0 o% = ož + o! + 2cTp0 - rozptyl celého testu. Dnes zpravidla jako koeficient GLB (greatest-lower bound of reliability). ° Rozdělení testu tak, aby A4 bylo maximální. ° „Příliš dobré rozdělení"-> na malých vzorcích nadhodnocuje. Stratifikované Cronbachovo alfa Nejjednodušší odhad reliability součtu subtestů - Cronbach (1965): Zf=1[6>fa2(l-r„Q] ^strat -L ? 0 o)j „váha" testu /' říj2 rozptyl testu /' ° rai reliabilita testu /' ° Pro výpočet stačí kovarianční matice a alfy subtestů. Předpokladem je nejen tau-ekvivalence položek v testech, ale i tau-ekvivalence testů. ° A nekorelované chyby měření testů. Např.: „Jaká bude test-retest korelace celkového IQ skóre, pokud jsou obě měření paralelní?" Omega Rodina koeficientů; Betlerova, Raykovova,... a zejm. McDonaldova omega. Obecný vzorec (Bollen, 1980; Raykov, 2001): 0) = -2- (S?=1Ai) 4 + Z?=1 °lx + 2 Zí<7 a?j 0 At = faktorový náboj položky i 0 g^j = rozptyl faktoru 0 Gq.i = reziduálni rozptyl položky i ° afj = kovariance položek i, j Bez předpokladu tau-ekvivalence (rozdílné faktorové náboje jsou přímo započítány). Omega Rodina koeficientů; Betlerova, Raykovova,... a zejm. McDonaldova omega. Obecný vzorec (Bollen, 1980; Raykov, 2001): . ._y^i=l /liJ uxp_ o vysvětlený rozptyl (Z?=1 + Z?=1 °lA + 2 Zi<; ^ ° Chyb0vý rozptyl 0 At = faktorový náboj položky i 0 g^j = rozptyl faktoru 0 Gq.i = reziduálni rozptyl položky i ° afj = kovariance položek i, j Bez předpokladu tau-ekvivalence (rozdílné faktorové náboje jsou zohledněny). Omega: Multidimenzionalita 1 Omega: Multidimenzionalita 2 0454 Omega: Multidimenzionalita 3 Hierarchická omega (omega hierarchical): 0 Rozptyl součtu položek vysvětlený daným faktorem. V případě faktoru druhého řádu (g) jsou specifické rozptyly faktorů prvního řádu považovány za chybu. ° Model based reliabilita: velmi záleží na definici modelu. Celková omega (omega total): 0 Rozptyl součtu položek vysvětlený všemi faktory prvního řádu. ° Odhad test-retest reliability součtu položek, pokud se míra žádného z atributů nezmění. „Dimension-free" omega: ° Celková omega spočítaná na základě EFA. 0 omega funkce v psych balíčku v R. 0454 Určitost faktorových skórů Factor score determinacy. Koeficienty omega pracují se součtem položek (všechny položky mají váhu 1). Občas pracujeme s odhady faktorových skórů. ° Vážený průměr všech položek; váha je spočítaná na základě f. nábojů a reziduálních rozptylů. 0 C = 2yAy(Ay2yAy + 0y)-1 maticový vzorec výpočtu, není podstatné. Výhody: Vyšší reliabilita (váhy položek jsou optimálně zvolené). Nevýhody: Sample dependency (zvláště u malých vzorků nepřesný odhad parametrů FA modelu). Factor score determinacy (FSD) = podíl rozptylu odhadu faktorového skóre vysvětlený faktorem. Reliabilita rozdílu Jak reliabilní je používání rozdílu mezi dvěma testy? ° Například VIQ a PIQ ve WAIS-III? _ Gx^XXt ~^~OyTyyf — 2TXy(TX(Ty ^ <^x~^<^y~^,^xy<^x<^y 0 kde ox a Oy jsou rozptyly obou testů, rxx, a ryy, jejich reliability a rxy je jejich korelace. ° jmenovatel je roven rozptylu výsledných rozdílů. Pokud a% = Oy — Oxy (v případě standardizovaných testů), pak: 2 Txxf^fyyf ~^xy 0 rx-y - oxy Reliabilita rozdílu Standardní chybu (SE) rozdílu lze spočítat s pomocí SD a SE vpravo, nebo prostřednictvím vzorce. Toto je důvod, proč je problematická interpretace rozdílu vysoce korelovaných subtestů. 0 rxx'' ryy' ~ reliability testů x a y rxy - korelace testů x a y 0 rx_y — reliabilita rozdílu 0 SDx.y-SD rozdílu SEx.y - standardní chyba rozdílu Cl 95%"šířka 95% intervalu spolehlivosti ľxx' El BH Cl 0,7 0,8 0 0,75 21,2 10,6 20,8 0,7 0,8 0,2 0,69 19,0 10,6 20,8 0,7 0,8 0,4 0,58 16,4 10,6 20,8 0,7 0,8 0,6 0,38 13,4 10,6 20,8 0,7 0,7 0,6 0,25 13,4 11,6 22,8 0,9 0,9 0,8 0,50 9,5 6,7 13,1 0,9 0,9 0,45 0,82 15,7 6,7 13,1 0,6 0,6 0,5 0,20 15,0 13,4 26,3 0,7 0,7 0,65 0,14 12,5 11,6 22,8 Kompozitní reliabilita Srovnání reliability rozdílu a kompozitní reliability (stratifikovaná Cronbachova alfa). Je evidentní, že korelace testů má opačný vliv na výslednou reliabilitu. rxx' El m 0,7 0,8 0 0,75 0,75 0,7 0,8 0,2 0,69 0,79 0,7 0,8 0,4 0,58 0,82 0,7 0,8 0,6 0,38 0,84 0,7 0,7 0,6 0,25 0,81 0,9 0,9 0,8 0,50 0,94 0,9 0,9 0,45 0,82 0,93 0,6 0,6 0,5 0,20 0,73 0,7 0,7 0,65 0,14 0,82 Práce s chybou Využití reliability při praktické diagnostice Statisticky významný rozdíl Klinicky významný rozdíl Chyba predikce A další... Otázky spojené s chybou měření Respondentovi naměřím výšku 178 cm. Jaké otázky si mohu položit? ° Kolik měří právě teď? ° Kolik bude měřit příště? ° Kolik mu můžu naměřit příště, pokud se jeho výška nezmění? ° Kolik mu musím naměřit příště, abych mohl konstatovat, že se jeho výška změnila? Kromě toho naměřím i jeho hmotnost 65 kg. Jaké další otázky si mohu položit? e „vyssi nez tezsi ? 0 Je „vyšší než těžší" oproti jiným respondentům? Chyba měření (v CTT) Chyba měření (SE) popisuje směrodatnou odchylku rozložení pozorovaných proměnných okolo měřené hodnoty. ° Z hlediska CTT: Rozložení pozorovaných skórů okolo pravého skóru. Na základě toho, čeho chybu zjišťujeme, musíme: ° Zvolit správnou střední hodnotu. ° Zvolit správný postup pro výpočet SE. Základní vzorec (chyba měření): oe — )Mx , kde 0 E(7|x) : očekávané pravé skóre na základě pozorovaného ° rrr-: reliabilita 0 Mx : průměrné skóre; ((1 — rxx)Mx je „intercept") ° Čím větší reliabilita, tím větší vliv pozorovaného skóre a menší vliv průměru (a naopak). Shrnutí: Důležité prvky práce s SE Co je očekávanou hodnotou, okolo které interval konstruuji? ° Pozorované skóre? 0 Odhad pravého skóre? 0 Nula (pro rozdíl dvou skórů)? Jak spočítám chybu pro daný účel/diagnostickou otázku? Jaký odhad reliability nejlépe použijú pro daný účel? Důležité vzorce S E O~q O"x 1 ^ ococ^ 0 SD pravého skóre je Vrxx'krát menší než SD pozorovaného skóre 0 pozor, regrese k průměru je ale rxx'krát! E(T\x) = rxx-x + (1 - rxx>)Mx a\±B = ol + 2olB + aB = <*a ± 2rABaAaB + al Funkce norm.dist a norm.inv v Excelu pro výpočt přesné p-hodnoty. Scénář 1: Standardní chyba měření Pokud jsme naměřili pozorované skóre X, jaké jiné alternativní X jsme mohli rovněž naměřit? Slouží pro popis chyby měření a intervalu spolehlivosti jednoho jediného měření. Velikost chyby: Středová hodnota: odhad pravého skóre E(7» = rxx>x + (1 - rxx-)M X Scénář 2: Chyba odhadu pravého skóre Pokud jsme naměřili pozorované skóre X, jaká je chyba odhadu pravého skóre i? Vzorec je stejný, jen namísto SD pozorovaného skóre použijeme odhad SD pravého skóre: Velikost chyby: Středová hodnota: E(T\x) = rxx-x + (1 - rxx-)Mx Někteří autoři tento postup doporučují, ale potíž s interpretací. ° Zajímá nás chyba na škále použité při konstrukci norem. Zpravidla tedy nepoužitelné. ° Nicméně např. WISC-5UK - pro standardizaci na IQ použil právě oT ° Standardizace IQ = 15 + 100 namísto běžného IQ = 15 + 10o Scénář 3: Standardní chyba predikce Naměřil jsem X. V jakém rozsahu bude ležet příští měření, pokud se úroveň atributu nezmění? Zlepšil se klient v terapii?"„Je účinný výukový program?" o Velikost chyby: Opřed ^xA 1 Vxx' „2 Txx, - druhá mocnina (test-retest) reliability. 0 jde o úpravu ovred = ^|cr| +