Reliabilita Klasická testová teorie PSYb2590: Základy psychometriky | Přednáška 2 27. 2. 2023 | Hynek Cígler Cíle přednášky (a semináře) Hodnocení „přesnosti“ měření psychologického testu skrze reliabilitu. Interpretace modelu měření klasické testové teorie. Postupy různých odhadů reliability. Pochopení důsledků (ne)reliability na praktické použití testu. Práce s chybou měření při praktickém použití testu (seminář). Chcete měřit výšku postavy Jak poznáte, že měření výšky je „dobré“? ◦ A co to znamená „dobré měření“? Co jsou všechny možné zdroje chyby měření? Jak můžete nepřesnost měření vyjádřit? Jakým způsobem můžete měření zpřesnit? Measuring children's height and weight, The University of Iowa, ca. 1920 https://www.flickr.com/photos/uiowa/8037651744 Klasická testová teorie Klasická testová teorie stojí na třech pilířích/objevech (Traub, 1997): ◦ Existence chyby měření I. typu (nezpůsobené ničím jiným). ◦ Chyba měření je náhodná veličina. ◦ Koncept korelace. Spearman (1904) přišel s koeficientem proti oslabení korelace („attenuation coefficient“), čímž umožnil vznik CTT. ◦ Motivací byl odhad korelace nezkreslené chybou měření. CTT „imituje“ opakované měření v přírodních vědách. Měření délky „Dobré“ měření je takové, kdy různí lidé v různých časech dojdou různými nástroji ke stejným naměřeným hodnotám, pokud se míra samotného objektu nezměnila. Postup fyzikálního měření délky 𝑑 pomocí „paralelních testů“: ◦ Změřím objekt 𝑛-krát a získám 𝑛 měření délky označených jako 𝑑𝑖. ◦ Bodový odhad délky je průměr z těchto měření: E 𝑑 = σ 𝑖=1 𝑛 𝑑 𝑖 𝑛 ◦ To E 𝑑 je „expected value“ – odhad měřené hodnoty 𝑑. ◦ Standardní chyba tohoto měření (SE, SEM, Standard Error of Measurement, 𝜎𝑒): ◦ Pro jediné měření: 𝑆𝐸 = 𝑠 𝑑 , kde 𝑠 𝑑 je výběrová směrodatná odchylka pozorovaných hodnot 𝑑𝑖 . ◦ Pro průměr z 𝑛 měření: 𝑆𝐸 = 𝑠 𝑑 𝑛 (standardní chyba průměru, viz Statistika 1!). ◦ 𝑑 = latentní proměnná, kterou měřím; 𝑑𝑖 = manifestní proměnná; E 𝑑 = odhad latentní proměnné. ◦ Někdy se pro odhad používá ještě symbol መ𝑑 (to proto, že odhad může být definovaný i jinak než průměrem). Měření délky Analogie v sociálních vědách: N položek dotazníku? ◦ Chyba měření by měla být SD naměřených hodnot na N položkách ( Τ𝑆𝐷 𝑁). Tento postup není dost dobře použitelný. ◦ Málokdy intervalové položky → předpoklady při výpočtu M i SD. ◦ Malý počet pozorování (položek) → nepřesný odhad SD. ◦ Velká míra chyby vzhledem k odlišnostem osob → nepřesný odhad SD vadí. ◦ Problém s extrémními hodnotami (nulová chyba při max./min. odpovědi). Výsledek: Velmi nepřesný odhad chyby. Řešení: Přidání pár realistických předpokladů, které odhad zpřesní. Paralelní testy Na konceptu paralelních testů Spearman založil koncept reliability. ◦ A na reliabilitě stojí zase CTT. Paralelní testy/měření jsou takové, pro které platí: ◦ A. Pravý skór je ve všech testech a pro každý měřený subjekt stejný ◦ 𝑇 = E 𝑋 = lim 𝑛→∞ σ 𝑖=1 𝑛 𝑋 𝑖 𝑛 . ◦ B. Rozptyl pravých skórů je v obou testech stejný (důsledek A). ◦ C. Chybový rozptyl je v obou testech a pro každý subjekt stejný. ◦ D. Shodný rozptyl pozorovaných skórů obou testů (důsledek A a C). ◦ Jinými slovy: „Lidé se nemění a test měří pořád ‚stejně‘.“ Tyto předpoklady jsou v sociálních vědách zpravidla příliš striktní. ◦ Proto později budeme pracovat spíše s „mírou paralelnosti“ (podrobněji přednáška o FA). Výlet do algebry Mějme dvě náhodné, normálně rozložené proměnné 𝐴, 𝐵: 𝐴~N 𝜇 𝐴, 𝜎𝐴 2 a 𝐵~N 𝜇 𝐵, 𝜎 𝐵 2 . 𝜇 𝐴, 𝜇 𝐵 – průměry; 𝜎𝐴 2 , 𝜎 𝐵 2 – rozptyly. Mějme proměnnou C, která je jejich součtem: 𝐶 = 𝐴 + 𝐵. Potom platí, že 𝐶~N 𝜇 𝐴 + 𝜇 𝐵, 𝜎𝐴 2 + 𝜎 𝐵 2 + 2𝑐𝑜𝑣 𝐴𝐵 , ◦ kde 𝑐𝑜𝑣 𝐴𝐵 = 𝑟𝐴𝐵 𝜎𝐴 𝜎 𝐵 je kovariance a 𝑟𝐴𝐵 korelace. ◦ Pomůcka: 𝑎 + 𝑏 2 = 𝑎2 + 𝑏2 + 2𝑎𝑏 Jinými slovy: ◦ Průměr součtu je součet průměrů: 𝜇 𝐴+𝐵 = 𝜇 𝐴 + 𝜇 𝐵 ◦ Rozptyl součtu je součet rozptylů a 2⨯ kovariance: 𝜎𝐴+𝐵 2 = 𝜎𝐴 2 + 𝜎 𝐵 2 + 2𝑐𝑜𝑣 𝐴𝐵 Výlet do algebry (simulace v Excelu) Viz studijní materiály. Výlet do algebry (grafická ilustrace) https://hynekcigler.shinyapps.io/covariance ◦ Využívá geometrického významu korelace: cos 𝜑 = 𝜌 = 𝑟𝐴𝐵 ◦ Jiný příklad: https://www.johndcook.com/blog/2010/06/17/covariance-and-law-of-cosines/ Výlet do algebry Lze zobecnit na korelační/kovarianční matice. Vážený součet 𝐶 = 𝑤 𝐴 𝐴 + 𝑤 𝐵 𝐵: 𝐶~N 𝑤 𝐴 𝜇 𝐴 + 𝑤 𝐴 𝜇 𝐵, 𝑤 𝐴 2 𝜎𝐴 2 + 𝑤 𝐵 2 𝜎 𝐵 2 + 2𝑤 𝐴 𝑤 𝐵 𝑐𝑜𝑣 𝐴𝐵 𝚺 𝑨𝑩 A B A 𝜎𝐴 2 𝑐𝑜𝑣 𝐴𝐵 B 𝑐𝑜𝑣 𝐴𝐵 𝜎 𝐵 2 𝚺 𝑨𝑩𝑪 A B C A 𝜎𝐴 2 𝑐𝑜𝑣 𝐴𝐵 𝑐𝑜𝑣 𝐴𝐶 B 𝑐𝑜𝑣 𝐴𝐵 𝜎 𝐵 2 𝑐𝑜𝑣 𝐵𝐶 C 𝑐𝑜𝑣 𝐴𝐶 𝑐𝑜𝑣 𝐵𝐶 𝜎 𝐶 2 𝜎𝐴+𝐵 2 = 𝜎𝐴 2 + 𝜎 𝐵 2 + 2𝑐𝑜𝑣 𝐴𝐵 = Σ 𝐴𝐵 𝜎𝐴+𝐵+𝐶 2 = 𝜎𝐴 2 + 𝜎 𝐵 2 + 𝜎𝑐 2 + 2 𝑐𝑜𝑣 𝐴𝐵 + 𝑐𝑜𝑣 𝐴𝐶 + 𝑐𝑜𝑣 𝐵𝐶 = Σ 𝐴𝐵𝐶 Klasická testová teorie Základní teorém CTT: Pozorovaný skór 𝑋 (manifestní proměnná) se skládá z pravého skóre 𝜏 a chyby měření 𝑒 (obě jsou latentní proměnné): 𝑋 = 𝜏 + 𝑒 Chyba je nezávislá na měřeném. ◦ Jinak by nebyla chybou. ◦ 𝑟𝜏𝑒 = 0 , tedy korelace pravého skóre a chyby měření je nulová → 0 = 2𝑟𝜏𝑒 𝜎𝜏 𝜎𝑒. Chyba měření (i pravý skór) jsou normálně rozložené, průměr chyby E 𝑒 = 0. Uvedený vztah proto platí i pro rozptyly obou proměnných: 𝜎 𝑋 2 = 𝜎𝜏 2 + 𝜎𝑒 2 Klasická testová teorie Základní teorém 𝑋 = 𝜏 + 𝑒 lze chápat jako lineární funkci. Standardizovaný regresní koeficient je tedy roven korelaci prediktoru (τ) a závislé proměnné (X), tedy 𝑟𝑥𝜏. ◦ Protože platí 1 = 𝑟𝑥𝜏 2 + 𝑟𝑒𝜏 2 (celkový standardizovaný rozptyl, 1, je součtem rozptylů vysvětlených TS a chybou), korelace (standardizovaný regresní koeficient) chyby měření a OS je 𝑟𝑥𝑒 = 1 − 𝑟𝑥𝜏 2 . τ 𝑟𝑥𝜏 X 𝑟𝑥𝑒 = 1 − 𝑟𝑥𝜏 2 e Reliabilita: metaforicky Reliabilita: podíl společného a celkového rozptylu: 𝑟 𝑥𝑥′ = + + + Čím více „společné variability“ sdílejí paralelní testy, tím vyšší je reliabilita jednoho každého z nich. Více společného rozptylu → vyšší reliabilita. Více chybového (specifického) rozptylu → nižší reliabilita. (pro notaci k obrázku viz S1) Reliabilita: technicky Reliabilita je definovaná jako podíl rozptylu pozorovaného skóre (manifestní proměnné) vysvětleného pravým skóre (latentní proměnnou): 𝑟 𝑥𝑥′ = 𝑅2 = 𝜎𝜏 2 𝜎𝑥 2 = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 = 𝜎𝑥 2 − 𝜎𝑒 2 𝜎𝑥 2 = 1 − 𝜎𝑒 2 𝜎𝑥 2 ◦ Jaký je vztah korelace a vysvětleného rozptylu (lineární regrese...)? Vysvětlený rozptyl je druhá mocnina korelace, tedy: ◦ 𝑟 𝑥𝑥′ = 𝑟𝑥𝜏 2 = 𝑅2 ◦ 𝑟 𝑥𝑥′ = 𝑟𝑥𝜏 = 𝑅 ◦ Jinými slovy: reliabilita je umocněná korelace pravého a pozorovaného skóre. OK. Ale jak tedy zjistíme to 𝒓 𝒙𝝉 (korelaci OS a TS)? Reliabilita Lineární funkce je izomorfní, lze tedy „otočit“: pokud 𝜏 vysvětlí 𝑟 𝑥𝑥′ rozptylu 𝑥, pak musí platit, že 𝑥 vysvětlí 𝑟 𝑥𝑥′ rozptylu 𝜏. Kolik rozptylu jednoho paralelního měření (𝑋2) vysvětlí jiné paralelní měření (𝑋1)? ◦ Pokud jsou chyby měření nezávislé? 𝑋1 → 𝜏: 𝑟 𝑥𝑥′ rozptylu. 𝜏 → 𝑋1: rovněž 𝑟 𝑥𝑥′ rozptylu. Dohromady tedy 𝑋1 → 𝜏 → 𝑋2 vysvětlí 𝑟 𝑥𝑥′ ∙ 𝑟 𝑥𝑥′ = 𝑟𝑥𝑥′ 2 rozptylu. ◦ To odpovídá korelaci 𝑟 𝑥𝑥′. Pokud je reliabilita testu 𝑟 𝑥𝑥′ , pak korelace dvou paralelních měření bude rovněž 𝑟 𝑥𝑥′. Odhady reliability jsou proto založeny na korelaci paralelních testů. Reliabilita Reliabilita testu je proto mj. definována jako uvažovaná „korelace dvou paralelních testů“. ◦ Někdy zjednodušeně uváděno jako korelace metody se sebou samou, proto ten symbol 𝑟 𝑥𝑥′ – korelace měření 𝑥 s virtuálním paralelním měřením 𝑥′ . Významy reliability: ◦ Korelace paralelních testů. ◦ Vysvětlený rozptyl měření měřeným 𝜎 𝜏 2 𝜎 𝑥 2. ◦ Relativní nepřítomnost chyby měření 1 − 𝜎 𝑒 2 𝜎 𝑥 2. Předpoklady: ◦ Chyba měření je náhodná proměnná. ◦ Chyby měření paralelních testů navzájem nekorelují. ◦ OS se skládá výhradně z TS a chyby, neexistuje jiný systematický rozptyl (jinak tento další systematický rozptyl nelze odlišit od TS). ◦ Veškeré vztahy jsou lineární, proměnné jsou normálně rozložené. ◦ Homoskedascita vztahu TS a OS. Attenuation Spearmanovou (1904) motivací byl odhad korelací pravých skórů nezkreslených chybou měření. Tzv. „attenuation coefficient“, „korekce proti oslabení“, „korekce proti nereliabilitě“. Odhad korelace pravých skórů: 𝑟𝑝𝑞 ∗ = 𝑟𝑝𝑞 𝑟 𝑝𝑝′ 𝑟 𝑞𝑞′ ◦ Kde 𝑟𝑝𝑞 ∗ je odhad korelace pravých skórů p, q, 𝑟𝑝𝑞 je pozorovaná korelace testů 𝑝 a 𝑞 a 𝑟 𝑝𝑝′, 𝑟 𝑞𝑞′ jsou jejich reliability. ◦ Protože korelace pravých skórů 𝑟𝑝𝑞 ∗ ≤ 1, lze odhadnout maximální možnou pozorovanou korelaci 2 testů jako: 𝑟𝑝𝑞 ≤ 𝑟 𝑝𝑝′ 𝑟 𝑞𝑞′ ◦ Korelace nemůže být vyšší než odmocnina součinu reliabilit! https://www.personality-project.org/r/book/Chapter7.pdf (Pozor, notace na diagramu je atypická a neodpovídá rovnicím.) Odhady reliability Tradiční způsoby odhadu: 1. Stabilita v čase (test-retest) 2. Shoda posuzovatelů 3. Paralelní formy testu 4. Vnitřní konzistence Lee Cronbach (1916–2001) autor koeficientu alfa Reliabilita: typické postupy ověření v CTT Stabilita v čase, reliabilita typu test-retest ◦ Měří test stále stejně? Paralelním testem (PT) je ten samý test administrovaný jindy. Shoda posuzovatelů, inter-rater reliabilita. ◦ Docházejí administrátoři ke stejným závěrům? PT je stejný test administrovaný někým jiným. Reliabilita paralelních forem. ◦ Měří obě/všechny formy testu to stejné? PT je jiný test vytvořený tak, aby „byl stejný“. Vnitřní konzistence a split-half ◦ Měří položky to stejné? PT jsou jednotlivé položky/půlky testu. ◦ Cronbachovo alfa, split-half a další. Lze čekat, že všechny koeficienty/odhady reliability budou stejné? Metoda test-retest ODHAD RELIABILITY Stabilita v čase, test-retest reliabilita Poskytuje test při opakovaném měření shodné odhady atributu? Metoda: Korelace dvou měření (rank-order stability). Předpoklady: ◦ Rys je (dostatečně) stabilní v čase. ◦ Měření jsou na sobě nezávislá. Zapamatování položek? Únava? Problém: reálná fluktuace rysu v čase je považována za chybu měření. Stabilita rysu (korelace TS) vs. stabilita metody (korelace OS|TS). Někdy se rozlišuje: ◦ Dependabilita měření – krátký interval, nepředpokládá se změna úrovně rysu. ◦ Stabilita měření – dlouhý interval, zahrnuje přirozené rysu fluktuace rysu v čase. Test-retest vs. individuální rozdíly Cole, D.A., Martin, N.C., & Steiger, J.H (2005). Empirical and conceptual problems with longitudinal trait-state models: introducing a trait-state-occasion mode. Psychological Methods 10(1), 3–20. https://doi.org/10.1037/1082-989X.10.1.3 Test-retest vs. individuální rozdíly Cole, D.A., Martin, N.C., & Steiger, J.H (2005). Empirical and conceptual problems with longitudinal trait-state models: introducing a trait-state-occasion mode. Psychological Methods 10(1), 3–20. https://doi.org/10.1037/1082-989X.10.1.3 Nezávislost chyb měření Chyby měření nebývají zcela náhodné, ale obsahují systematickou složku stabilní v čase. ◦ U výkonových testů méně, u dotazníků více. Nezávislost chyb měření Chyby měření nebývají zcela náhodné, ale obsahují systematickou složku stabilní v čase. ◦ U výkonových testů méně, u dotazníků více. Co to udělá s korelací celého testu? ◦ Tedy 𝑟 σ 𝐼𝑖 , σ 𝐼𝑖 ′ ? Jakou informaci ponese tato korelace? Jaký bude vztah reliability a korelace? Dvě pojetí reliability: ◦ reliabilita jako vztah atributu a měření (𝑟𝑥𝜏 2 ) ◦ reliabilita jako stabilita měření (𝑟𝑥𝑥 ′ ) ◦ nejsou-li chyby měření nezávislé, 𝑟𝑥𝜏 2 ≠ 𝑟𝑥𝑥 ′ Reliabilita paralelních forem ODHAD RELIABILITY Reliabilita paralelních forem Poskytují dva testy shodné odhady atributu? Metoda: Korelace paralelních forem testu. Účel používání paralelních testů: ◦ Zabránit opisování při hromadné administraci. ◦ Zabránit zapamatování položek při opakované administraci a retestování (PPP). ◦ Umožnit sběr data ve více nezávislých termínech (SCIO, TSP...). Problém: I když jsou testy vytvořené stejným způsobem, málokdy měří zcela ten samý pravý rys. Je nutné odlišit reliabilitu paralelních forem od existence paralelních forem jako takových. ◦ Vyvažování paralelních forem je celkově velmi náročné. Více stupňů ekvivalence dvou testů: ◦ Alternativní: pouze podobné. ◦ Srovnatelné: srovnatelné standardní skóry. ◦ Ekvivalentní: srovnatelné hrubé skóry. ◦ (Striktně) paralelní: shodné pravé skóry. ◦ Souvisí s problematikou paralelních testů, viz přednáška o faktorové analýze. ◦ Terminologie není jednoznačná Paralelní formy prakticky Pokud neaspirujeme na „vyvážené“, striktně paralelní testy… … postupujeme stejně, jako v případě test-retest. Převedeme na stejné jednotky (T-skóry atp.) pro každou formu zvlášť a ověříme: ◦ shodu pořadí (korelace); ◦ shoda průměrů (t-test; standardizace to zajistí); ◦ shodu rozptylů = homoskedascitu (Levenův test; standardizace to zajistí); ◦ případně i linearitu skórů (scatter-plot, kvadratická/polynomická regrese). (Vnitrotřídní) korelace je potom koeficientem reliability. Co vše může způsobovat rozdíl průměrů obou forem? ◦ Jak se vyhnout těm vlivům, které „nechceme“? Vyvažování paralelních forem Spíš otázka norem a pedagogického testování (nikoli reliability). Linking (skóry dvou forem testu jsou srovnatelné) vs. equating (testy měří to samé) Jedno z typických využití teorie odpovědi na položku (IRT). Samostatné obsáhlé publikace, specifická expertíza. ◦ Kolen, M. J., & Brennan, R. l. (2014). Test equating, scaling and linking: methods and practices. Springer. Raw-score equating, ekvipercentilové vyvažování, linking functions, mapping functions. Vyvažují se nejen formy, ale i jazykové mutace (PISA, TIMSS, TALIS). Shoda posuzovatelů ODHAD RELIABILITY Shoda posuzovatelů Docházejí dva hodnotitelé/administrátoři ke shodným závěrům? Druhy neshody: ◦ Shoda administrátorů (např. WISC). ◦ Shoda posuzovatelů (např. ROR) – inter-rater, intra-rater reliabilita. ◦ V diagnostické praxi obtížně odlišitelné. Korelace napravo: 𝑟𝐴𝐵 = 0,93. Opravdu se hodnotitelé shodují? Komplikace 1: rozdílná „přísnost“ hodnotitelů. ◦ Je nutné vzít v úvahu i rozdílnou přísnost (zde Cohenovo 𝑑 = 1,3). ◦ Používá se proto tzv. vnitrotřídní korelace (intra-class correlation), která bere v úvahu shodu pořadí, průměrů a lze použít pro libovolný počet hodnotitelů. Existuje 2×(3+2) variant ICC. ◦ V tomto případě 𝐼𝐶𝐶 2,1 = 0,51. ◦ Pozn.: ICC(3,k) pro průměrné hodnocení je ekvivalentní s pojetím reliability podle Hoyta [URB, s. 112-114] a tedy s Cronbachovým α, v tomto případě 𝐼𝐶𝐶 3,2 = 0,96. rater A rater B ID1 4 7 ID2 2 4 ID3 6 7 ID4 1 3 ID5 3 5 ID6 5 6 M 3,00 5,67 SD 2,19 1,97 rAB 0,93 Shoda posuzovatelů: komplikace 2 Až příliš často nás zajímá shoda jednotlivých kritérií: Úroveň měření. Reliabilita kódování na úrovni položky. ◦ Používá se i jako ukazatel interní validity v kvalitativním výzkumu. Položky bývají nominální nebo ordinální, nelze proto použít ICC a korelace. ◦ A nelze použít podíl shody (např. „shodli se v 90 % případů“) kvůli nahodilé shodě. Proto velké množství různých statistik: ◦ Cohenovo kappa – absolutní shoda 2 hodnotitelů vážená proti nahodilé shodě. ◦ 𝜅 = 𝑃𝑜−𝑃𝑒 1−𝑃𝑒 , kde 𝑃𝑜 je pozorovaná shoda a 𝑃𝑒 zcela náhodná shoda (očekávaná) ◦ Vážené kappa – shoda 2 hodnotitelů v případě ordinálních položek. ◦ Fleissovo (vážené) kappa – shoda N hodnotitelů u nominálních (ordinálních) položek. ◦ Kendallův koeficient konkordance – analogie Spearmanovy korelace pro N hodnotitelů (jen pořadí). Shoda posuzovatelů: Co si pamatovat? V nouzi: shoda průměrů (např. t-test, ANOVA) plus pořadí (alfa, korelace) ◦ Nebo ordinální ekvivalenty (Mann-Whitney, Kruskal-Wallis, Spearmanova korelace). V případě nominálních proměnných za žádných okolností nepoužívat % shody! Zpravidla o dost jiná informace, než zbylé koeficienty. Specifické koeficienty. Některé stojí pamatovat si podle jména: ◦ (Cohenova) kappa; vnitrotřídní korelace; Kendallův koeficient konkordance; Krippendorfova alfa. Další zdroje: ◦ Hallgren, K. A. (2012). Computing Inter-Rater reliability for observational data: An overview and Tutorial. Tutorials in Quantitative Methods for Psychology, 8(1), 23–34. doi:10.20982/tqmp.08.1.p023 ◦ Kottner, J., Audige, L., Brorson, S., Donner, A., Gajewski, B. J., Hróbjartsson, A., … Streiner, D. L. (2011). Guidelines for reporting reliability and agreement studies (GRRAS) were proposed. International Journal of Nursing Studies, 48(6), 661–671. doi:10.1016/j.ijnurstu.2011.01.016 Vnitřní konzistence ODHAD RELIABILITY Vnitřní konzistence Často máme ale jedinou formu testu bez vlivu posuzovatele (dotazník) a nezajímá nás stabilita v čase nebo nemáme prostředky na dvě administrace (nebo to není možné). Prostě je k dispozici jediné měření jednou metodou. Dva hlavní postupy: ◦ Split-half reliabilita. ◦ Vnitřní konzistence. Split-half Postup: Test rozdělíme na dvě půlky a pracujeme jako s reliabilitou paralelních forem. Problém 1: Jak test rozdělit? ◦ Poloviny by měly být paralelní. ◦ Zpravidla tedy nějaké pseudo-náhodné rozdělení (sudá–lichá). ◦ Existuje velmi mnoho různých rozdělení a každé poskytne poněkud jiný odhad split-half reliability. Problém 2: Odhad založen jen na jediné korelaci. ◦ Při srovnání s jinými koeficienty vnitřní konzistence (alfa, omega) menší přesnost odhadu (širší CI). Problém 3: Zkrácení testu. ◦ Reliabilita je závislá na délce testu. Delší testy → vyšší reliabilita. ◦ Rozpůlením testu zjistíme reliabilitu jedné poloviny, reliabilita celého testu je nutně vyšší. Problém 4: Lichý počet položek. Podstatný není počet položek, ale rozptyl půlek testu. ◦ U delších testů proto nehraje roli. Split-half: Spearmanův-Brownův postup „Spearmanův-Brownův věštecký vzorec“ (Spearman-Brown prophecy formula): 𝑟𝑥𝑥′ ∗ = 𝑁𝑟 𝑥𝑥′ 1 + 𝑁 − 1 𝑟 𝑥𝑥′ ◦ N – poměr délek testů; 𝑟 𝑥𝑥′ – původní reliabilita; 𝑟𝑥𝑥′ ∗ odhad reliability po změně délky. ◦ „Jaká bude reliabilita 𝑟𝑥𝑥′ ∗ při N-násobné změně délky testu?“ V případě split-half reliability N = 2 (test je dvakrát delší než polovina): 𝑟𝑆𝐵 = 𝑟𝑥𝑥′ ∗ = 2𝑟 𝑥𝑥′ 1 + 𝑟 𝑥𝑥′ Slouží i k odhadu požadovaného počtu položek pro dosažení určité reliability. ◦ Předpokladem jsou striktně-paralelní položky (viz přednáška o FA). Vztah reliability testu a jeho délky V případě 11položkového dotazníku výšky ze začátku semestru r = 0,86. Split-half: Guttmanova lambda 4 Guttman (1945) publikoval 6 různých odhadů reliability λ1–6. Podstatné jsou dva z nich: 𝜆4 = 4𝜎 𝑝𝑞 2 𝜎 𝑥 2 ◦ kde 𝜎 𝑝𝑞 2 je kovariance polovin testu a 𝜎 𝑥 2 = 𝜎 𝑝 2 + 𝜎 𝑞 2 + 2𝜎 𝑝𝑞 2 je rozptyl celého testu. ◦ 𝜆4 je shodná s Cronbachovou alfou u dvoupoložkových testů. ◦ 𝜆3 je určena pro vícepoložkové testy a je shodná s Cronbachovou alfou (viz dále). Spearman-Brown vs. lambda 4: ◦ SB může při porušení předpokladů reliabilitu nadhodnotit, 𝜆4 je vždy nižší než skutečná reliabilita. ◦ Pokud se poloviny testu výrazně liší svou délkou či rozptylem, 𝜆4 může výrazně podhodnotit. ◦ Jsou-li poloviny standardizovány, pak platí 𝜆4 = 𝑟𝑆𝐵 = 𝛼. ◦ U dlouhých testů oba postupy vedou k podobným odhadům. Poloviny testů by při jakémkoli split-half přístupu měly být „stejně dlouhé“. ◦ Pokud nejsou, lze využít jiné postupy (Cígler a Chvojková, preprint; Warrens, 2016). Split-half: specifické použití Greatest-Lower Bound of reliability. ◦ Řada rozdílných postupů a algoritmů. ◦ Anotace jako GLB, glb, 𝜎+, 𝜌 𝑔𝑙𝑏 apod. V poslední době je Guttmanova 𝜆4 chápána jako synonymum pro GLB. Položky jsou rozděleny tak, aby byla korelace polovin testu maximalizovaná. ◦ Může být analyticky náročné. ◦ Na malých vzorcích a krátkých testech vede k nadhodnocení z důvodu výběrové chyby („příliš dobré“ rozpůlení). ◦ Doporučení: N > 1000. Vyhnout se N < 200. Cronbachovo alfa Co když jsou paralelními testy jednotlivé položky? ◦ Pokud měří všechny to samé, pak by spolu měly hodně korelovat – být vnitřně konzistentní. ◦ Položky měří totéž, pokud mají hodně sdíleného rozptylu. Cronbachova (1951) alfa: 𝛼 = 𝑘 𝑘 − 1 1 − σ𝑖=1 𝑘 𝜎𝑖 2 𝜎 𝑥 2 ◦ 𝜎𝑖 2 – rozptyl položky i, σ𝑖=1 𝑘 𝜎𝑖 2 je diagonála variančněkovarianční matice (jedinečný/chybový rozptyl položek) ◦ 𝜎 𝑥 2 – rozptyl celého testu, tedy suma var-covar matice ◦ 𝑘 – počet položek (ne celý jedinečný rozptyl položek je chybou, proto korekce 𝑘 𝑘−1 , aby reliabilita mohla být 1) ◦ Bez této korekce jde o Guttmanovu λ1. A B C A 1 0,514 0,477 B 0,514 1 0,662 C 0,477 0,662 1 Část korelační matice Holzinger a Swineford (1937): 𝛼 = 3 2 1 − 1 + 1 + 1 1 + 1 + 1 + 2 0,514 + 0,477 + 0,662 = 0,786 Cronbachovo alfa: předpoklady Tau-ekvivalentní položky ◦ Stejná lineární souvislost položky s pravým skóre... ◦ ... a tedy shodné faktorové náboje ve faktorové analýze (viz přednáška o FA). ◦ Při nedodržení podhodnocuje. Unikátní rozptyl je celý chybovým rozptylem. ◦ A proto tzv. „spodní hranice reliability“. Lokální nezávislost položek (jednodimenzionalita). ◦ Nedodržení může nadhodit i podhodnotit. Alfa není ukazatelem jednodimenzionality! ◦ I vícedimenzionální testy mohou mít vysokou vnitřní konzistenci, viz např. Marko (2016). Cronbachovo alfa: varianty Standardizovaná Cronbachova alfa: ◦ Korelační, nikoliv kovarianční matice. ◦ Vnitřní konzistence standardizovaných položek. ◦ Robustnější při výrazně rozdílné obtížnosti položek (slabší předpoklad tau-ekvivalence). Kuderův-Richardsonův (1931) vzorec 20 a 21 𝐾𝑅20 = 𝑘 𝑘 − 1 1 − σ𝑖=1 𝑘 𝑃𝑖 1 − 𝑃𝑖 𝜎𝑥 2 ◦ V případě binárních položek, kdy 𝑃𝑖 1 − 𝑃𝑖 je rozptyl dichotomické položky. ◦ 𝐾𝑅20 = α, 𝐾𝑅21 pro položky stejné obtížnosti. ◦ Spíše historické kvůli snadnosti výpočtu. Psychometrický paradox Hypotetický dotazník extroverze: ◦ Rád se vídám s lidmi. ◦ Rád jsem v kontaktu s lidmi. ◦ Vyhledávám společnost lidí. ◦ Jsem rád mezi lidmi. ◦ Dělá mi dobře společnost lidí. ◦ ... Psychometrický paradox Reliabilita testu je funkcí korelací mezi položkami a jejich počtem. Čím více spolu položky korelují, tím „ostřeji“ se zaměřují na specifický rys. „Alfa tuning“ škál: výběr nejvíce korelujících položek a zvýšení reliablity. ◦ Měříme stále přesněji stále méně (menší výsek konstruktu) – ztráta (výběrové) validity. ◦ Někdy i jako cílená aktivita; de facto může jít o podvod (synonymní páry položek...). Nikoli vždy! https://www.rasch.org/rmt/rmt94a.htm Kdy použít split-half? Vnitřní konzistence (alfa, omega...) bývá výhodnější než split-half. ◦ Přesnější a robustnější odhad. Výjimka: časované/rychlostní testy nebo testy s pravidlem ukončení. ◦ Počet správně vyřešených položek za 1 minutu (např. Test pozornosti d2). ◦ „Ukončete administraci po 5 chybných odpovědích“ (např. Wechslerovy testy). ◦ Datová matice obsahuje řadu chybějících dat na koncích řádků. Určité výhody i u velkých datasetů (N>1000, ideálně N>5000). ◦ GLB, menší statistické předpoklady (např. ve srovnání s binárními pol.). Specifické příklady vnitřní konzistence Reliabilita celkového skóre v multidimenzionálních testech. ◦ Např. reliabilita celkového skóre v inteligenčním testu (WISC, WAIS). Reliabilita váženého skóre. ◦ Celkové skóre je váženým součtem dílčích položek/subtestů. Reliabilita rozdílového skóre. ◦ Např. reliabilita rozdílu rychlosti a správnosti v testu pozornosti d2. Reliabilita v testech založených na jiné teorii měření. ◦ Typicky IRT, kde položky nejsou jednoduše sčítány. V těchto případech je pro odhad vnitřní konzistence použít jiné postupy. ◦ Postupů pro odhad reliability je mnoho – představili jsme jen nejzákladnější postupy. Kompozitní reliabilita Někdy též reliabilita lineárních kombinací. Jaká je reliabilita (vícedimenzionálního) skóre založeného na součtu více škál? ◦ Běžné odhady typu Cronbachova alfa zpravidla vedou k podhodnocení. Více přístupů, užitečná je zejm. stratifikovaná Cronbachova alfa (1965): ◦ 𝛼 𝑠𝑡𝑟𝑎𝑡 = 1 − σ𝑖=1 𝑘 𝜔 𝑖 2 𝜎𝑖 2 1−𝑟𝑖𝑖′ 𝜎 𝑍 2 ◦ 𝜔𝑖 – „váha“ testu i (zpravidla 1); 𝜎𝑖 2 – rozptyl testu i; 𝑟𝑖𝑖′ – reliabilita testu i ◦ Pro výpočet stačí kovarianční matice a reliability subtestů. ◦ Předpoklady tau-ekvivalence položek v testech, tau-ekvivalence testů, ortogonální disturbance. Dále pak koeficienty omega (viz přednáška o FA). Reliabilita rozdílu Jak reliabilní je používání rozdílu mezi dvěma testy? ◦ Například VIQ a PIQ ve WAIS-III? 𝑟𝑥−𝑦 = 𝜎 𝑥 2 𝑟 𝑥𝑥′+𝜎 𝑦 2 𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 𝜎 𝑥 2+𝜎 𝑦 2−2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 , ◦ kde 𝜎𝑥 2 a 𝜎 𝑦 2 jsou rozptyly obou testů, 𝑟𝑥𝑥′ a 𝑟𝑦𝑦′ jejich reliability a 𝑟𝑥𝑦 je jejich korelace. ◦ jmenovatel je roven rozptylu výsledných rozdílů. Pokud 𝜎𝑥 2 = 𝜎 𝑦 2 = 𝜎𝑥𝑦 2 (v případě standardizovaných testů), pak: ◦ 𝑟𝑥−𝑦 = 𝜎𝑥𝑦 2 𝑟 𝑥𝑥′+𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦 2−2𝑟 𝑥𝑦 Reliabilita rozdílu Standardní chybu rozdílu lze spočítat s pomocí SD a SE vlevo, nebo prostřednictvím vzorce. ◦ Viz seminář. Toto je důvod, proč je problematická interpretace rozdílu vysoce korelovaných subtestů. ◦ Téměř u nikoho se neliší... rxx‘ ryy‘ rxy rx-y SDx-y SEx-y CI95% 0,7 0,8 0 0,75 21,2 10,6 20,8 0,7 0,8 0,2 0,69 19,0 10,6 20,8 0,7 0,8 0,4 0,58 16,4 10,6 20,8 0,7 0,8 0,6 0,38 13,4 10,6 20,8 0,7 0,7 0,6 0,25 13,4 11,6 22,8 0,9 0,9 0,8 0,50 9,5 6,7 13,1 0,9 0,9 0,45 0,82 15,7 6,7 13,1 0,6 0,6 0,5 0,20 15,0 13,4 26,3 0,7 0,7 0,65 0,14 12,5 11,6 22,8 Cho (2016): http://journals.sagepub.com/doi/abs/10.1177/1094428116656239 Klasická testová teorie (CTT): overview CTT je špatným modelem měření. Není jasné, co to je pravý skór. ◦ Pravý skór je definovaný skrze samotné měření. ◦ Pravý skór je neoddělitelný od měřicího nástroje. ◦ CTT je založena na operacionalismu: definice měření je operacionální. ◦ CTT nepopisuje „data generating process“. CTT je historicky spojená s faktorovou analýzou. Protože CTT předpokládá paralelní položky, celkový skór testu je součtem/průměrem položek. ◦ Ale co když položky nejsou paralelní? Přesto je CTT jednoznačně nejvíce používanou teorií měření v sociálních vědách. ◦ I bodování v psychometrice je založené na součtu správných odpovědí v testech... Reliabilita: overview Reliabilita je ukazatelem kvality testu. ◦ Řada doporučení ohledně minimální hranice přípustné reliability. Typicky Klineovo pravidlo: 𝑟 𝑥𝑥′ > 0,7. ◦ Záleží ale na účelu testu: nižší nároky pro výzkumné metody, vyšší nároky pro metody určené do praxe, nejvyšší nároky na high-stakes testy (SCIO, inteligenční test...). ◦ V případě výzkumu záleží i na způsobu využití (SEM vs. pozorované skóry). Doporučené hodnoty reliability: ◦ „Nejlepší“ metody (celkový skór IST-2000-R) nebo testy základních kognitivních funkcí (Bourdonova zkouška): 𝑟 𝑥𝑥′ > 0,95. ◦ Dobré testy: 𝑟 𝑥𝑥′ > 0,90. Ve výzkumu výjimečně i 𝑟 𝑥𝑥′ > 0,70. ◦ Osobně považuji testy s 𝑟 𝑥𝑥′ < 0,80 za problematické. Vždy ale záleží na účelu měření! Reliabilita jako podklad pro práci s chybou při praktické psychologické diagnostice. ◦ Viz seminář. Nelineární vztah reliability a chyby měření