U|\| T Katedra l\l í psychologie FSS Přednáška 2: Model klasické testové teorie 13. 10. 2019 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler Obsah přednášky Chyba měření a interval spolehlivosti. 0 Opakování, inference o statisticky vs. klinicky významném rozdílu. Model měření klasické testové teorie. Pokročilé odhady reliability. Cíle přednášky Zvážení chyby měření v různých praktických situacích. Co děláme když používáme CTT k měření? Proč není alfa dobrý koeficient? Jaké jsou alternativy ke koeficientu alfa? Chyba měření a intervaly spolehlivosti Opakování: standardní chyba měření standardní chyba predikce standardní chyba rozdílu Statisticky významný rozdíl Klinicky významný rozdíl MEASUREMENT ERROR https://www.nagwa.com/en/videos/138104137874/ Otázky spojené s chybou měření Respondentovi naměřím výšku 178 cm. Jaké otázky si mohu položit? ° Kolik měří právě teď? ° Kolik bude měřit příště? ° Kolik mu můžu naměřit příště, pokud se jeho výška nezmění? ° Kolik mu musím naměřit příště, abych mohl konstatovat, že se jeho výška změnila? Kromě toho naměřím i jeho hmotnost 65 kg. Jaké další otázky si mohu položit? e „vyssi nez tezsi ? 0 Je „vyšší než těžší" oproti jiným respondentům? Chyba měření Standardní chyba měření: směrodatná odchylka pozorovaných hodnot okolo skutečné úrovně atributu Příklad: 0 https://www.zoology.ubcxa/~wh^^ ° https://www.zoologv.ubcxa/"whitlock/Kingfisher/CLT.htm Chyba měření a Cl Rozložení naměřených hodnot je normálně rozložené a definované svým M a SD. Proto, když konstruujeme Cl, musíme vědět: 0 Okolo čeho? Jaký je průměr rozložení? 0 Jak nepřesné? Jaká je směrodatná odchylka rozložení (SE?) Tři klíčové vzorce (z nichž lze vše odvodit) 1. Základní teorém CTT: X — t -\- e 0 X - pozorované, t - pravé skóre a e - chyba. 2. Reliabilita rxxr je podíl vysvětleného rozptylu: r , = — = °^ = i - — xx' ol o} + cre2 ol ° Symbol sigma [o2) označuje rozptyl. 3. Rozptyl součtu dvou náhodných proměnných A+B má rozptyl: °A+B = °A +°B+ 2°AB = °A + °B ± 2rAB°A°B 0 °ab — cov(A,5) - kovariance, rAB - jejich korelace (grafická ilustrace) ° Protože rTe = 0, pak z 1 a 3 vyplývá = + Standardní chyba měření Když rovnici rxxi = 1 —§ vyřešíme pro oe, získáme vzorec standardní chyby měření: Standardní chyba měření 0-2 Když rovnici rxxi = 1 —§ vyřešíme pro oe, získáme vzorec standardní chyby měření: SE = oe= axJl - reliabilita - podíl vysvětleného rozptylu 1f *y> Středová hodnota Chyba se nepohybuje kolem pozorovaného, ale kolem pravého skóre. Jaká je nejpravděpodobnější hodnota pravého skóre při určitém pozorovaném skóre x? O trochu blíže k průměru (protože pravé skóry mají menší rozptyl než pozorované skóry). Regresní model CTT: E(T\x) = rxx-x + (1 - rxx-)Mx 0 E(7|x) : očekávané (expected), nejpravděpodobnější pravé skóre. ° rxx-: reliabilita; „směrnice". 0 Mx : průměrné skóre; (1 — rxx-)Mx je „průsečík". ° Čím větší reliabilita, tím větší vliv pozorovaného skóre a menší vliv průměru (a naopak). Směrodatná odchylka pravého skóre: oT = ->Jrxxtax Chyba měření (v CTT) Takto spočítanou chybu měření mohu použít pro konstrukci intervalu spolehlivosti. Ch = E(X) ± Ziae 0 E(X) = očekávaná hodnota, okolo které interval konstruuji. 0 ae = chyba měření ° zi = kvantil normálního rozdělení Kvantily normálního rozdělení: 95% Cl: z95% = 1,96 90% Cl: z90% = 1,64 ° 80% Cl: z80% = 1,28 ° 68% Cl: z68% = 1,00 Shrnutí: Důležité prvky práce s SE Co je očekávanou hodnotou, okolo které interval konstruuji? ° Pozorované skóre? 0 Odhad pravého skóre? 0 Nula (pro rozdíl dvou skórů)? Jak spočítám chybu pro daný účel/diagnostickou otázku? Jaký odhad reliability nejlépe použijú pro daný účel? Scénář 1: Standardní chyba měření Pokud jsme naměřili pozorované skóre X, jaké jiné alternativní X jsme mohli rovněž naměřit? Slouží pro popis chyby měření a intervalu spolehlivosti jednoho jediného měření. Velikost chyby: Středová hodnota: odhad pravého skóre E(7» = rxx>x + (1 - rxx-)M X Scénář 2: Chyba odhadu pravého skóre Pokud jsme naměřili pozorované skóre X, jaká je chyba odhadu pravého skóre i? Vzorec je stejný jen namísto SD pozorovaného skóre použijeme odhad SD pravého skóre: Velikost chyby: Středová hodnota: E(T\x) = rxx-x + (1 - rxx-)Mx Někteří autoři tento postup doporučují, ale potíž s interpretací. ° Zajímá nás chyba na škále použité při konstrukci norem. Zpravidla tedy nepoužitelné. ° Nicméně např. WISC-5UK - pro standardizaci na IQ použil právě oT ° Standardizace IQ = 15 + 100 namísto běžného IQ = 15 + 10o Scénář 3: Standardní chyba predikce Naměřil jsem X. V jakém rozsahu bude ležet příští měření, pokud se úroveň atributu nezmění? Zlepšil se klient v terapii?"„Je účinný výukový program?" o Velikost chyby: Opřed ~ <7xA/1 Vxx' „2 rxxl - druhá mocnina (test-retest) reliability. 0 jde o úpravu opred = ^|cr| + CTT není vědeckou teorií měření. ° Reakcí byla Stevensova „nevědecká" „operační teorie měření", která rozšířila definici měření: „...measurement, in the broadest sense, is defined as the assignment of numerals to objects and events according to rules." (Stevens, 1946, s. 677). Klíčový pojem je „matching". ° Ve skutečnosti zjednodušení konsenzu z přírodních věd: ^Measurement is a method of assigning numbers to magnitudes" (např. Helmholtz, 1887). Vývoj CTT byl prakticky ukončen do 60. let: Lord a Novick (1968). von Helmholtz, H. (1887/1971). An Epistemological Analysis of Counting and Measurement. In R. Kahl (ed.), Selected Writings of Hermann von Helmholtz. Wesleyan University Press. Pro interpretaci doporučuji: Michell, J. (1993). The origins of the representational theory of measurement: Helmholtz, Holder, and Russell. Studies in History and Philosophy of Science Part A, 24(2), 185-206. doi:10.1016/0039-3681(93)90045-l Měření v přírodních vědách Existuje nějaký atribut, který opakovaně měříme tím stejným nástrojem. Každé jedno měření má nějakou chybou, kterou neznáme. 0 Jednotlivá měření se pohybují okolo skutečné hodnoty v důsledku náhodné chyby měření. Výsledkem opakovaných měření je proto rozložení, které použijeme pro odhad skutečné hodnoty: ° Průměr rozložení: odhad míry atributu, E(x) = 1 * 1. ° N - počet měření; xt - i-tá naměřená hodnota; E(x) - expected value (průměr, nejpravděpodobnější hodnota příštího měření. 0 Standardní chyba průměru: odhad standardní chyby měření, SE = ^= ° SE - standardní chyba měření (Standard Error), sd - výběrová směrodatná odchylka jednotlivých měření. ° Lze využít pro konstrukci Cl atd. (za pomoci Studentova t-rozložení). Předpoklady Odhad průměru (standardní chyba měření) je přibližně normálně rozložený. ° Centrální limitní teorém: potřebujeme alespoň 30 měření. ° Příklady zde a zde © To v psychologii není možné. Nemůžu člověka měřit 30krát tím stejným testem (vyjma jednoduchých psychofyzikálních úloh). Kudy z toho ven? Shodná chyba měření pro všechny respondenty. ° Nikoliv „standardní chybu průměru" pro každého respondenta zvlášť. Jednotlivá měření jako paralelní testy. Paralelní testy „Dobré" měření je takové, kdy různí lidé v různých časech dojdou různými nástroji ke stejným naměřeným hodnotám, pokud se míra samotného objektu nezměnila. Paralelní testy/měření jsou takové, pro které platí: ° A. Pravý skór je v paralelních testech a pro každý měřený subjekt stejný o t = EQO = lim 5lki£i. n—>co n 0 B. Rozptyl pravých skórů je v obou testech stejný (důsledek A). 0 C. Chybový rozptyl je v paralelních testech a pro každý subjekt stejný. ° Důsledkem je navíc shodný rozptyl pozorovaných skórů obou testů. Paralelní testy Korelace paralelních testů je reliabilita: rxxi = cor(x,x') 0 To je právě Spearmanův objev. 0 Test-retest, paralelní formy, shoda posuzovatelů, split-half... Původně CTT považovala za paralelní testy pouze jejich výsledek (celkové skóre). ° Způsob konstrukce tohoto skóre je irelevantní. 0 Operacionalismus: pravé skóre (a tedy měřený atribut) je definovaný měřením. CTT tedy chápe reliabilitu jako „stabilitu" odhadu pravého skóre napříč podmínkami (paralelním testováním). S postupem času otázka: Jak se celkové skóre vytváří? ° Položky jako paralelní testy. CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. ° Shodné reziduálni rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ° Shodné intercepty/průměry položek. ° U binárních položek paralelní = striktně paralelní, protože varpQ) = Pt(l — Pí). Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. ° Shodné reziduálni rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ° Shodné intercepty/průměry položek. ° U binárních položek paralelní = striktně paralelní, protože varpQ) = Pt(l — Pí). Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): ^ip H + 6ip Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. at ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. ° Shodné reziduálni rozptyly. Striktně paralelní: Stejná obtížnost všech položek. ° Shodné intercepty/průměry položek. ° U binárních položek paralelní = striktně paralelní, protože varpQ) = Pt(l — Pí). = a Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): ^ip H + 6ip Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. at = a,vdiľ(eip) = var(e) ° Shodné reziduálni rozptyly. V případě binárních položek je shodné s předchozím, var(x) : Striktně paralelní: Stejná obtížnost všech položek. ° Shodné intercepty/průměry položek. U binárních položek paralelní = striktně paralelní, protože var(Xi) = Pt(l — Př) Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní P(x)j P(x) CTT: Paralelní testy Úrovně paralelnosti položek (založené na faktorové analýze): Kongenerické: Vybrané ze stejné domény. Stejná struktura rovnice pro všechny položky. ° Měří stejný rys (trs rysů), ale jiným způsobem. Tau-ekvivalentní: Stejná lineární souvislost s měřeným atributem. ° Shodné nestandardizované faktorové náboje („měřítko" položky). Paralelní: Položky měří se stejnou velikostí chyby. ° Shodné reziduálni rozptyly. Striktně paralelní: Stejná obtížnost všech položek. at = a,vdiľ(eip) = var(e), it ° Shodné intercepty/průměry položek. ° U binárních položek paralelní = striktně paralelní, protože varpQ) = Pt(l — Pí). = l Někdy též kongenerické -> esenciálně tau-ekvivalentní -> tau-ekvivalentní -> paralelní CTT: Paralelní testy (a) Parallel model (b) Tau-equivalent model (c) Congeneric model Var(e^) — Var(e^) = Var(e3) Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19(A), 651-682. https://doi.orR/10.1177/1094428116656239 Reliabilita Jhe term reliability has been used in two ways in the measurement literature. First, the term has been used to refer to the reliability coefficients of classical test theory, defined as the correlcrtem between scores on two equivalent forms of the test, WesUmifo that taking afie fonn has second fort nee on the Second, the term has bed^sMd n^nvpre genermsen^^aweferM) the consistency of scores across replications of a testing procedure, regardless of how this consistency is estimated or reported (e.g., in terms of standard errors, reliability coefficients perse, generalizability coefficients, error/tolerance ratios, item response theory (IRT) information functions, or various indices of classification consistency): (AERA, 2014, s. 33) AERA, APA, & NCME. (2014). Standards for Educational and Psychological Testing. American Educational Research Association. Dvě pojetí reliability Stabilita měření. ° Bez ohledu na to, jaký je „význam" měření. Vysvětlený rozptyl. ° Vysvětlený rozptyl čím? ° Co považujeme za pravé skóre? Dvě pojetí reliability 1. Dimension-free reliability (důraz na korelaci paralelních testů) ° Odhad vztahu (korelace) dvou paralelních měření týmž testem bez ohledu na to, co test měří. ° split-half, alfa, celková omega, glb 2. Model-based reliability (důraz na vysvětlený rozptyl) ° Odhad vztahu (vysvětleného rozptylu) měřeného atributu a pozorovaného skóru. ° Rodina koeficientů omega (McDonaldova hierarchická omega). Podrobně viz: ° Bentler P. M. (2009). Alpha, Dimension-Free, and Model-Based Internal Consistency Reliability. Psychometrika, 74(1), 137-143. doi:10.1007/sll336-008-9100-l ° Cho, E. (2016). Making Reliability Reliable: A Systematic Approach to Reliability Coefficients. Organizational Research Methods, 19[4), 651-682. doi:10.1177/1094428116656239 Systematický přístup k reliabilitě Table 3. Names of Reliability Coefficients Currently Used in the Literature. Unidimensional Multidimensional Split-Half General General Parallel Spearman-Brown formula Standardized alpha (Not yet published) Tau-equivalent Flanagan-Rulon formula Flanagan formula Rulon formula Guttman's X4 Cronbach's alpha Coefficient alpha Guttman's X3 Hoyt method KR-20 Stratified alpha Congeneric Raju (1970) coefficient Angoff-Feldt coefficient Angoff coefficient Composite reliability Construct reliability Congeneric reliability Omega Unidimensional omega Raju (1977) coefficient Classical congeneric Omega Omega total McDonald's omega Multidimensional omega reliability coefficient Cho (2016) Systematický přístup k reliabilitě Table 4. Names and Notations of Reliability Coefficients Suggested in This Study. Unidimensional Multidimensional Split-Half General General Parallel Split-half parallel reliability (Psp) Parallel reliability (pP) Multidimensional parallel reliability (Pmp) Tau-equivalent Split-half tau-equivalent reliability (pST) Tau-equivalent reliability (p7) Multidimensional tau-equivalent reliability (pMT) Congeneric Split-half congeneric reliability (Psc) Congeneric reliability (Pc) Bifactor model Bifactor reliability (pBF) Second-order factor model Second-order factor reliability (pSof) Correlated factors model Correlated factors reliability (p^) Cho (2016) Potíž 1: Spodní hranice reliability Lower-bound of reliability. Potíž 1: Spodní hranice reliability Lower-bound of reliability. Zpravidla předpokládáme, že unikátní rozptyl položek je chyba. Unikátní rozptyl ale lze rozdělit na: ° specifický (systematický pro daného člověka) 0 chybový(náhodný) Tyto složky ale nelze oddělit při jediné administraci testu. ° V longitudinálních SEM modelech korelovaná rezidua v čase. Potíž 2: Formativní vs. reflektivní model Potíž 2: Formativní vs. reflektivní model Split-half Reliabilita jako stabilita. Problémy se split-half: ° Nelze ověřit předpoklady paralelnosti. ° Test je zkrácený na polovinu. ° Existuje velké množství rozdělení testu na dvě poloviny. ° Různá rozdělení -> různé odhady. Split-half SPEARMAN-BROWNUV PŘISTUP GUTTMANOVAA4 Spearmanův-Brownův věštecký vzorec: iVr\ XX xx 1 + (iV - l)rxx, N - změna délky testu, v případě split-half N=2: xx 1 + rrr/ Předpoklad: paralelní poloviny. 0 Při nedodržení příliš „optimistický" může nadhodnocova nebo podhodnocovat. Guttman (1945) publikoval X^: Xa — 4a pq x 0 Opq - kovariance polovin testu 0 0% = (j| + o! + 2ožq - rozptyl celého testu. A4 = a (ve dvoupoložkovém testu) 0 tau-ekvivalentní poloviny (jinak podhodnocuje) 0 Proto je Ä4 dnes chápána jako maximalizovaná split-half pomocí nejlepšího možného rozdělení. „Příliš dobré rozdělení"-> na malých vzorcích nadhodnocuje. Pokud je kovariance větší než kterýkoli z rozptylů: hrubé podhodnocení. Založeno na jediné korelaci -> nepřesný odhad reliability. Split-half: Nestejné poloviny Spearmanův-Brownův i Guttmanův přísup předpokládá stejně dlouhé poloviny testu. Odvozeno z SB-vzorce (při stejné délce by poloviny byly paralelní): ° Horstova (1951)1: rH = —51—--y—y\-> kde nx a n2 jsou délky polovin testu. Odvozeno z Guttmanovy A4 (při stejné délce by poloviny byly tau-ekvivalentní): ° Raju (1977): 0 = -^S r122+47r17r2(l-r122)-r122 7r17r2cr; x 2 2 ° Délku polovin lze odhadnout na základě jejich rozptylu jako n1 = °x +°12, n2 = °2 +^12, což lze dosadit: 0 Angoffův-Feldtův koeficient (1953, 1975): rAF = 4cr 12 L/ y Cronbachovo alfa (Guttmanova A3) a =---1 1 - k — 1 y a x ° of - rozptyl položky /, Ya=i °i Je diagonála var-kovar matice (unikátni rozptyl položek = chyba) ° aj - rozptyl celého testu, tedy suma var-kovar matice (sdílený rozptyl položek) k ° k - počet položek (ne celý unikátni rozptyl je chybou, proto korekce -—, aby reliabilita mohla být 1) ° V případě binárních položek je výsledek shodný s výpočetně jednodušším KR-20. Předpoklady: k ° Tau-ekvivalentní položky (při nedodržení je korekce — nedostatečná -> podhodnocení reliability). ° Jednodimenzionalita (nadhodnocení i podhodnocení dle typu). ° Alfa není ukazatelem jednodimenzionality (viz např. Marko, 2016). Výhody: Přesný odhad (ve srovnání se split-half), tradice. Varianty koeficientu alfa Standardizované alfa. ° Pro výpočet použita korelační matice -> reliabilita součtu standardizovaných položek. ° Použitelné v případě položek s rozdílnou odpověďovou škálou, tedy i pozorovaným rozptylem a výrazným narušením předpokladu tau-ekvivalence. Ordinální alfa (Zumbo, Gadermann, Zeisser, 2007) 0 Alfa spočítané nad maticí polychorických korelací. 0 Zcela jiný význam, není použitelné pro běžnou praxi. ° Není srovnatelné s jinými odhady reliability (viz např. Chalmers, 2017). Stratifikované Cronbachovo alfa Nejjednodušší odhad reliability součtu subtestů - Cronbach (1965): . zjuNWa-*«')] ^strat -L ? 0 (út „váha" testu /' of rozptyl testu /' ° rai reliabilita testu /' ° Pro výpočet stačí kovarianční matice a alfy subtestů. Předpokladem je nejen tau-ekvivalence položek v testech, ale i tau-ekvivalence testů. ° A nekorelované chyby měření testů. Např.: „Jaká bude test-retest korelace celkového IQ skóre, pokud jsou obě měření paralelní?" Model-based reliabilita: omega Rodina koeficientů; Betlerova, Raykovova,... a zejm. McDonaldova omega. Obecný vzorec (Bollen, 1980; Raykov, 2001): (ú = ij 0 At = faktorový náboj položky i 0 g^j = rozptyl faktoru, o% = celkový pozorovaný rozptyl 0 = reziduálni rozptyl položky i ° afj = kovariance položek i, j Bez předpokladu tau-ekvivalence (rozdílné faktorové náboje jsou přímo započítány). Model-based reliabilita: omega Rodina koeficientů; Betlerova, Raykovova,... a zejm. McDonaldova omega. Obecný vzorec (Bollen, 1980; Raykov, 2001): (Id=iW2