Reliabilita Klasická testová teorie PSYB2590: ZÁKLADY PSYCHOMETRIKY (PŘEDNÁŠKA 2) 9. 3. 2020 | HYNEK CÍGLER Let's measure your height the way psychologists do! http://fssvm6.fss.muni.cz/height/ Cíle přednášky (a semináře) Hodnocení „přesnosti“ měření psychologického testu skrze reliabilitu. Interpretace modelu měření klasické testové teorie. Postupy různých odhadů reliability. Pochopení důsledků (ne)reliability na praktické použití testu. Práce s chybou měření při praktickém použití testu (seminář). Chcete měřit výšku postavy Jak poznáte, že měření výšky je „dobré“? ◦ A co to znamená „dobré měření“? Co jsou všechny možné zdroje chyby měření? Jak můžete nepřesnost měření vyjádřit? Jakým způsobem můžete měření zpřesnit? Measuring children's height and weight, The University of Iowa, ca. 1920 https://www.flickr.com/photos/uiowa/8037651744 Klasická testová teorie Klasická testová teorie stojí na třech pilířích/objevech (Traub, 1997): ◦ Existence chyby měření I. typu (nezpůsobené ničím jiným). ◦ Chyba měření je náhodná veličina. ◦ Koncept korelace. Spearman (1904) přišel s koeficientem proti oslabení korelace („attenuation coefficient“), čímž umožnil vznik CTT. ◦ Motivací byl odhad korelace nezkreslené chybou měření. CTT „imituje“ opakované měření v přírodních vědách. Měření délky „Dobré“ měření je takové, kdy různí lidé v různých časech dojdou různými nástroji ke stejným naměřeným hodnotám, pokud se míra samotného objektu nezměnila. Postup fyzikálního měření délky d pomocí „paralelních testů“: ◦ Změřím objekt n-krát a získám n měření délky označených jako 𝑑𝑖. ◦ Bodový odhad délky je průměr z těchto měření: E 𝑑 = σ 𝑖=1 𝑛 𝑑 𝑖 𝑛 ◦ To E 𝑑 je „expected value“ – odhad měřené hodnoty d. ◦ Standardní chyba tohoto měření (SE, SEM, Standard Error of Measurement): ◦ Pro jediné měření: 𝑆𝐸 = 𝑠 𝑑 , kde 𝑠 𝑑 je výběrová směrodatná odchylka pozorovaných hodnot 𝑑𝑖 . ◦ Pro průměr z 𝑛 měření: 𝑆𝐸 = 𝑠 𝑑 𝑛 (standardní chyba průměru, viz Statistika 1!). ◦ d = latentní proměnná, kterou měřím; di = manifestní proměnná; E(d) = odhad latentní proměnné. Paralelní testy Na konceptu paralelních testů Spearman založil koncept reliability. ◦ Na reliabilitě stojí zase CTT. Paralelní testy/měření jsou takové, pro které platí: ◦ A. Pravý skór je ve všech testech a pro každý měřený subjekt stejný ◦ 𝑇 = E 𝑋 = lim 𝑛→∞ σ𝑖=1 𝑛 𝑋 𝑖 𝑛 . ◦ B. Rozptyl pravých skórů je v obou testech stejný (důsledek A). ◦ C. Chybový rozptyl je v obou testech a pro každý subjekt stejný. ◦ Důsledkem je navíc shodný rozptyl pozorovaných skórů obou testů. Tyto předpoklady jsou v sociálních vědách příliš striktní, a proto později budeme pracovat spíše s „mírou paralelnosti“. Výlet do algebry Mějme dvě náhodné, normálně rozložené proměnné: 𝐴~N 𝜇 𝐴, 𝜎𝐴 2 a 𝐵~N 𝜇 𝐵, 𝜎 𝐵 2 . 𝜇 𝐴, 𝜇 𝐵 – průměry; 𝜎𝐴 2 , 𝜎 𝐵 2 – rozptyly. Mějme proměnnou C, která je jejich součtem: 𝐶 = 𝐴 + 𝐵. Potom platí, že 𝐶~N 𝜇 𝐴 + 𝜇 𝐵, 𝜎𝐴 2 + 𝜎 𝐵 2 + 2𝑐𝑜𝑣 𝐴𝐵 , ◦ kde 𝑐𝑜𝑣 𝐴𝐵 = 𝑟𝐴𝐵 𝜎𝐴 𝜎 𝐵 je kovariance a 𝑟𝐴𝐵 korelace. ◦ Pomůcka: 𝑎 + 𝑏 2 = 𝑎2 + 𝑏2 + 2𝑎𝑏 Lze zobecnit na korelační/kovarianční matice. ◦ Rozptyl součtu proměnných je roven součtu všech prvků matice. ◦ Pro vážený součet 𝐶 = 𝑤 𝐴 𝐴 + 𝑤 𝐵 𝐵 platí: 𝐶~N 𝑤 𝐴 𝜇 𝐴 + 𝑤 𝐴 𝜇 𝐵, 𝑤 𝐴 2 𝜎𝐴 2 + 𝑤 𝐵 2 𝜎 𝐵 2 + 2𝑤 𝐴 𝑤 𝐵 𝑐𝑜𝑣 𝐴𝐵 Výlet do algebry (simulace v Excelu) Viz studijní materiály. Klasická testová teorie Základní teorém CTT: Pozorovaný skór (manifestní proměnná) se skládá z pravého skóre a chyby měření (obě jsou latentní proměnné): 𝑋 = 𝜏 + 𝑒 Chyba je nezávislá na měřeném. ◦ Jinak by nebyla chybou. ◦ 𝑟𝜏𝑒 = 0 , tedy korelace pravého skóre a chyby měření je nulová, 0 = 2𝑟𝜏𝑒 𝜎𝜏 𝜎𝑒. Chyba měření (i pravý skór) jsou normálně rozložené, průměr chyby E 𝑒 = 0. Uvedený vztah proto platí i pro rozptyly obou proměnných: 𝜎 𝑋 2 = 𝜎𝜏 2 + 𝜎𝑒 2 Klasická testová teorie Základní teorém 𝑋 = 𝜏 + 𝑒 lze chápat jako lineární funkci. Standardizovaný regresní koeficient je tedy roven korelaci prediktoru (τ) a závislé proměnné (X), tedy 𝑟𝑥𝜏. ◦ Protože platí 1 = 𝑟𝑥𝜏 2 + 𝑟𝑒𝜏 2 (celkový standardizovaný rozptyl, 1, je součtem rozptylů vysvětlených TS a chybou), korelace (standardizovaný regresní koeficient) chyby měření a OS je 𝑟𝑒𝜏 = 1 − 𝑟𝑥𝜏 2 . τ 𝑟𝑥𝜏 X 1 − 𝑟𝑥𝜏 2 e Reliabilita: metaforicky Reliabilita: podíl společného a celkového rozptylu: + + + + + Čím více „společné variability“ sdílejí paralelní testy, tím vyšší je reliabilita jednoho každého z nich. Více společného rozptylu → vyšší reliabilita. Více chybového (specifického) rozptylu → nižší reliabilita. (pro notaci k obrázku viz P1) Reliabilita: technicky Reliabilita je definovaná jako podíl rozptylu pozorovaného skóre (manifestní proměnné) vysvětleného pravým skóre (latentní proměnnou): 𝑟 𝑥𝑥′ = 𝑅2 = 𝜎𝜏 2 𝜎𝑥 2 = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 = 𝜎𝑥 2 − 𝜎𝑒 2 𝜎𝑥 2 = 1 − 𝜎𝑒 2 𝜎𝑥 2 Jaký je vztah korelace a vysvětleného rozptylu (lineární regrese...)? Vysvětlený rozptyl je druhá mocnina korelace, tedy: ◦ 𝑟 𝑥𝑥′ = 𝑟𝑥𝜏 2 = 𝑅2 ◦ 𝑟 𝑥𝑥′ = 𝑟𝑥𝜏 = 𝑅 ◦ Jinými slovy: reliabilita je umocněná korelace pravého a pozorovaného skóre. OK. Ale jak tedy zjistíme to 𝒓 𝒙𝝉 (korelaci OS a TS)? Reliabilita Lineární funkci můžeme otočit: pokud TS (true score) vysvětlí 𝑟 𝑥𝑥′ rozptylu OS (observed score), pak musí platit, že OS vysvětlí 𝑟 𝑥𝑥′ rozptylu TS. Kolik rozptylu jednoho paralelního měření (𝑋2) vysvětlí jiné paralelní měření (𝑋1)? ◦ Pokud veškerý sdílený rozptyl obou měření je kauzálně způsobován jen a pouze pravým skóre? 𝑋1 → 𝑇𝑆: 𝑟 𝑥𝑥′ rozptylu. TS → 𝑋1: rovněž 𝑟 𝑥𝑥′ rozptylu. Dohromady tedy 𝑋1 → TS → 𝑋2 vysvětlí 𝑟 𝑥𝑥′ ∙ 𝑟 𝑥𝑥′ = 𝑟𝑥𝑥′ 2 rozptylu. ◦ To odpovídá korelaci 𝑟 𝑥𝑥′. Pokud je reliabilita testu 𝑟 𝑥𝑥′ , pak korelace dvou paralelních měření bude rovněž 𝑟 𝑥𝑥′. Odhady reliability jsou proto založeny na korelaci paralelních testů. Reliabilita Reliabilita testu je proto mj. definována jako uvažovaná „korelace dvou paralelních testů“. ◦ Někdy zjednodušeně uváděno jako korelace metody se sebou samou, proto ten symbol 𝑟 𝑥𝑥′ – korelace měření 𝑥 s virtuálním paralelním měřením 𝑥′ . Významy reliability: ◦ Korelace paralelních testů. ◦ Vysvětlený rozptyl měření měřeným 𝜎 𝜏 2 𝜎 𝑥 2. ◦ Relativní nepřítomnost chyby měření 1 − 𝜎 𝑒 2 𝜎 𝑥 2. Předpoklady: ◦ Chyba měření je náhodná, exogenní proměnná. ◦ Chyby měření paralelních testů navzájem nekorelují. ◦ OS se skládá výhradně z TS a chyby, neexistuje jiný systematický rozptyl (jinak tento další systematický rozptyl nelze odlišit od TS). ◦ Veškeré vztahy jsou lineární, proměnné jsou normálně rozložené. ◦ Homoskedascita vztahu TS a OS. Attenuation Spearmanovou (1904) motivací byl odhad korelací pravých skórů nezkreslených chybou měření. Tzv. „attenuation coefficient“, „korekce proti oslabení“, „korekce proti nereliabilitě“. Odhad korelace pravých skórů: 𝑟𝑝𝑞 ∗ = 𝑟𝑝𝑞 𝑟 𝑝𝑝′ 𝑟 𝑞𝑞′ ◦ Kde 𝑟𝑝𝑞 ∗ je odhad korelace pravých skórů p, q, 𝑟𝑝𝑞 je pozorovaná korelace testů 𝑝 a 𝑞 a 𝑟 𝑝𝑝′, 𝑟 𝑞𝑞′ jsou jejich reliability. ◦ Protože korelace pravých skórů 𝑟𝑝𝑞 ∗ ≤ 1, lze odhadnout maximální možnou pozorovanou korelaci 2 testů jako: 𝑟𝑝𝑞 ≤ 𝑟 𝑝𝑝′ 𝑟 𝑞𝑞′ ◦ Korelace nemůže být vyšší než odmocnina součinu reliabilit! https://www.personality-project.org/r/book/Chapter7.pdf (Pozor, notace na diagramu je atypická a neodpovídá rovnicím.) Reliabilita: typické postupy ověření v CTT Stabilita v čase, reliabilita typu test-retest ◦ Měří test stále stejně? Paralelním testem (PT) je ten samý test administrovaný jindy. Shoda posuzovatelů, inter-rater reliabilita. ◦ Docházejí administrátoři ke stejným závěrům? PT je stejný test administrovaný někým jiným. Reliabilita paralelních forem. ◦ Měří obě/všechny formy testu to stejné? PT je jiný test vytvořený tak, aby „byl stejný“. Vnitřní konzistence a split-half ◦ Měří položky to stejné? PT jsou jednotlivé položky/půlky testu. ◦ Cronbachovo alfa, split-half a další. Lze čekat, že všechny koeficienty budou stejné? Stabilita v čase, test-retest reliabilita Poskytuje test při opakovaném měření shodné odhady atributu? Metoda: Korelace dvou měření (rank-order stability). Předpoklady: ◦ Rys je (dostatečně) stabilní v čase. ◦ Měření jsou na sobě nezávislá. Zapamatování položek? Únava? Problém: reálná fluktuace rysu v čase je považována za chybu měření. Stabilita rysu (korelace TS) vs. stabilita metody (korelace OS). Někdy se rozlišuje: ◦ Dependabilita měření – krátký interval, nepředpokládá se změna úrovně rysu. ◦ Stabilita měření – dlouhý interval, zahrnuje přirozené rysu fluktuace rysu v čase. Test-retest vs. individuální rozdíly Cole, D.A., Martin, N.C., & Steiger, J.H (2005). Empirical and conceptual problems with longitudinal trait-state models: introducing a trait-state-occasion mode. Psychological Methods 10(1), 3–20. https://doi.org/10.1037/1082-989X.10.1.3 Test-retest vs. individuální rozdíly Cole, D.A., Martin, N.C., & Steiger, J.H (2005). Empirical and conceptual problems with longitudinal trait-state models: introducing a trait-state-occasion mode. Psychological Methods 10(1), 3–20. https://doi.org/10.1037/1082-989X.10.1.3 Reliabilita paralelních forem Poskytují dva testy shodné odhady atributu? Metoda: Korelace paralelních forem testu. Účel používání paralelních testů: ◦ Zabránit opisování při hromadné administraci. ◦ Zabránit zapamatování položek při opakované administraci a retestování (PPP). ◦ Umožnit sběr data ve více nezávislých termínech (SCIO, TSP...). Problém: I když jsou testy vytvořené stejným způsobem, málokdy měří zcela ten samý pravý rys. Je nutné odlišit reliabilitu paralelních forem od existence paralelních forem jako takových. Vyvažování paralelních forem je celkově velmi náročné. ◦ Tzv. „test-equating“ a „test-linking“. ◦ Většinou se používají IRT-based metody. Více stupňů ekvivalence dvou testů: ◦ Alternativní: pouze podobné. ◦ Srovnatelné: srovnatelné konečné skóry. ◦ Ekvivalentní: srovnatelné výsledné skóry. ◦ (Striktně) paralelní: shodné pravé skóry. ◦ Souvisí s problematikou paralelních testů, viz přednáška o faktorové analýze. Paralelní formy prakticky Pokud neaspirujeme na „vyvážené“, striktně paralelní testy… … postupujeme stejně, jako v případě test-retest. Převedeme na stejné jednotky (T-skóry atp.) pro každou formu zvlášť a ověříme: ◦ shodu pořadí celkových skórů (korelace); ◦ shoda průměrů (a rozptylů) celkových skórů (t-test; standardizace to zajistí); ◦ homoskedascitu rozdílů mezi verzemi (Levenův test; standardizace to zajistí). Korelace je potom koeficientem reliability. Co vše může způsobovat rozdíl průměrů obou forem? ◦ Jak se vyhnout těm vlivům, které „nechceme“? Shoda posuzovatelů Docházejí dva hodnotitelé/administrátoři ke shodným závěrům? Druhy neshody: ◦ Shoda administrátorů (např. WISC). ◦ Shoda posuzovatelů (např. ROR) – inter-rater, intra-rater reliabilita. ◦ V diagnostické praxi obtížně odlišitelné. Korelace napravo: 𝑟𝐴𝐵 = 0,93. Opravdu se hodnotitelé shodují? Komplikace 1: rozdílná „přísnost“ hodnotitelů. ◦ Je nutné vzít v úvahu i rozdílnou přísnost (Cohenovo 𝑑 = 1,3). ◦ Používá se proto tzv. vnitrotřídní korelace (intra-class correlation), která bere v úvahu shodu pořadí, průměrů a lze použít pro libovolný počet hodnotitelů. Existuje 2×(3+2) variant ICC. ◦ V tomto případě 𝐼𝐶𝐶 2,1 = 0,51. ◦ Pozn.: ICC(3,k) pro průměrné hodnocení je ekvivalentní s pojetím reliability podle Hoyta [URB, s. 112-114] a tedy s Cronbachovým α, v tomto případě 𝐼𝐶𝐶 3,2𝑐 = 0,96. rater A rater B ID1 4 7 ID2 2 4 ID3 6 7 ID4 1 3 ID5 3 5 ID6 5 6 M 3,00 5,67 SD 2,19 1,97 Shoda posuzovatelů: komplikace 2 Reliabilita kódování na úrovni položky. ◦ Používá se i jako ukazatel interní validity v kvalitativním výzkumu. Položky bývají nominální nebo ordinální, nelze proto použít ICC a korelace. ◦ A nelze použít podíl shody (např. „shodli se v 90 % případů“), protože to je závislé na nahodilé shodě, která závisí zase na obtížnosti položky. Není možné srovnávat hodnocení v různých kategoriích. Velké množství různých statistik: ◦ Cohenovo kappa – absolutní shoda 2 hodnotitelů vážená proti nahodilé shodě. ◦ 𝜅 = 𝑃𝑜−𝑃𝑒 1−𝑃𝑒 , kde 𝑃𝑜 je pozorovaná shoda a 𝑃𝑒 zcela náhodná shoda (očekávaná) ◦ Vážené kappa – shoda 2 hodnotitelů v případě ordinálních položek. ◦ Fleissovo (vážené) kappa – shoda N hodnotitelů u nominálních (ordinálních) položek. ◦ Kendallův koeficient konkordance – analogie Spearmanovy korelace pro N hodnotitelů (jen pořadí). Vnitřní konzistence Většinou máme ale jedinou formu testu bez vlivu posuzovatele (dotazník) a nezajímá nás stabilita v čase nebo nemáme prostředky na dvě administrace. Dva hlavní postupy: ◦ Split-half reliabilita. ◦ Vnitřní konzistence. Split-half Postup: Test rozdělíme na dvě půlky a pracujeme jako s reliabilitou paralelních forem. Problém 1: Jak test rozdělit? ◦ Poloviny by měly být paralelní. ◦ Zpravidla tedy nějaké pseudo-náhodné rozdělení (sudá–lichá). ◦ Existuje velmi mnoho různých rozdělení a každé poskytne poněkud jiný odhad split-half reliability. Problém 2: Odhad založen jen na jediné korelaci. ◦ Při srovnání s jinými koeficienty vnitřní konzistence (alfa, omega) menší přesnost odhadu (širší CI). Problém 3: Zkrácení testu. ◦ Reliabilita je závislá na délce testu. Delší testy → vyšší reliabilita. ◦ Rozpůlením testu zjistíme reliabilitu jedné poloviny, reliabilita celého testu je nutně vyšší. Problém 4: Lichý počet položek. Podstatný není počet položek, ale rozptyl půlek testu. Split-half: Spearmanův-Brownův postup „Spearmanův-Brownův věštecký vzorec“ (Spearman-Brown prophecy formula): 𝑟𝑥𝑥′ ∗ = 𝑁𝑟 𝑥𝑥′ 1 + 𝑁 − 1 𝑟 𝑥𝑥′ ◦ N – poměr délek testů; 𝑟 𝑥𝑥′ – původní reliabilita; 𝑟𝑥𝑥′ ∗ odhad reliability po změně délky. ◦ „Jaká bude reliabilita 𝑟𝑥𝑥′ ∗ při N-násobné změně délky testu?“ V případě split-half reliability N = 2 (test je dvakrát delší než polovina): 𝑟𝑥𝑥′ ∗ = 2𝑟 𝑥𝑥′ 1 + 𝑟 𝑥𝑥′ Slouží i k odhadu požadovaného počtu položek pro dosažení určité reliability. ◦ Předpokladem jsou striktně-paralelní položky (viz dále). Vztah reliability testu a jeho délky V případě 11položkového dotazníku výšky ze začátku semestru r = 0,86. Split-half: Guttmanova lambda 4 Guttman (1945) publikoval 6 různých odhadů reliability λ1–6. Podstatné jsou dva z nich. 𝜆4 = 4𝜎 𝑝𝑞 2 𝜎 𝑥 2 ◦ kde 𝜎 𝑝𝑞 2 je kovariance polovin testu a 𝜎 𝑥 2 = 𝜎 𝑝 2 + 𝜎 𝑞 2 + 2𝜎 𝑝𝑞 2 je rozptyl celého testu. ◦ λ4 je shodná s Cronbachovou alfou u dvoupoložkových testů. ◦ λ3 je určena pro vícepoložkové testy a je shodná s Cronbachovou alfou (viz dále). Občas se namísto λ4 používá tzv. GLB či 𝜎+ koeficient (greatest-lower-bound of reliability). ◦ Použití algoritmů, které test rozdělí na 2 poloviny tak, aby byla λ4 maximalizovaná. ◦ Na malých vzorcích vede k nadhodnocení z důvodu výběrové chyby („příliš dobré“ rozpůlení). Koeficient na rozdíl od SB korekce nenadhodnocuje při nedodržení paralelnosti testů. ◦ Pouze předpoklad tau-ekvivalentních polovin. ◦ Při velmi výrazném narušení tau-ekvivalence (různé délky testu) výrazné podhodnocení. Cronbachovo alfa Co když jsou paralelními testy jednotlivé položky? ◦ Pokud měří všechny to samé, pak by spolu měly hodně korelovat – být vnitřně konzistentní. ◦ Položky měří totéž, pokud mají hodně sdíleného rozptylu. Cronbachova (1951) alfa: 𝛼 = 𝑘 𝑘 − 1 1 − σ𝑖=1 𝑘 𝜎𝑖 2 𝜎 𝑥 2 ◦ 𝜎𝑖 2 – rozptyl položky i, σ𝑖=1 𝑘 𝜎𝑖 2 je diagonála variančněkovarianční matice (jedinečný/chybový rozptyl položek) ◦ 𝜎 𝑥 2 – rozptyl celého testu, tedy suma var-covar matice ◦ k – počet položek (ne celý jedinečný rozptyl položek je chybou, proto korekce 𝑘 𝑘−1 , aby reliabilita mohla být 1) ◦ Bez této korekce jde o Guttmanovu λ1. A B C A 1 0,514 0,477 B 0,514 1 0,662 C 0,477 0,662 1 Část korelační matice Holzinger a Swineford (1937): 𝛼 = 3 2 1 − 1 + 1 + 1 1 + 1 + 1 + 2 0,514 + 0,477 + 0,662 = 0,786 Cronbachovo alfa: předpoklady, varianty Tau-ekvivalentní položky (shodné faktorové náboje ve faktorové analýze, viz P4). ◦ Při nedodržení podhodnocuje, mj. proto jde o tzv. „spodní hranici reliability“. Lokální nezávislost položek (jednodimenzionalita). ◦ Nedodržení může nadhodit i podhodnotit. Alfa není ukazatelem jednodimenzionality. ◦ I vícedimenzionální testy mohou mít vysokou vnitřní konzistenci, viz např. Marko (2016). Standardizovaná Cronbachova alfa: ◦ Korelační, nikoliv kovarianční matice. ◦ Vnitřní konzistence standardizovaných položek. ◦ Robustnější při výrazně rozdílné obtížnosti položek (slabší předpoklad tau-ekvivalence). Kuderův-Richardsonův (1931) vz. 20 a 21: 𝐾𝑅20 = 𝑘 𝑘 − 1 1 − σ𝑖=1 𝑘 𝑃𝑖 1 − 𝑃𝑖 𝜎 𝑥 2 ◦ V případě binárních položek, kdy 𝑃𝑖 1 − 𝑃𝑖 je rozptyl dichotomické položky. ◦ KR20 = α, KR21 pro položky stejné obtížnosti. ◦ Spíše historické kvůli snadnosti výpočtu. Psychometrický paradox Hypotetický dotazník extroverze: ◦ Rád se vídám s lidmi. ◦ Rád jsem v kontaktu s lidmi. ◦ Vyhledávám společnost lidí. ◦ Jsem rád mezi lidmi. ◦ Dělá mi dobře společnost lidí. ◦ ... Psychometrický paradox Reliabilita testu je funkcí korelací mezi položkami a jejich počtem. Čím více spolu položky korelují, tím „ostřeji“ se zaměřují na specifický rys. „Alfa tuning“ škál: výběr nejvíce korelujících položek a zvýšení reliablity. ◦ Měříme stále přesněji stále méně (menší výsek konstruktu) – ztráta (výběrové) validity. ◦ Někdy i jako cílená aktivita; de facto je to podvod (synonymní páry položek...). Nikoli vždy! https://www.rasch.org/rmt/rmt94a.htm Kdy použít split-half? Vnitřní konzistence (alfa, omega...) je bývá výhodnější než split-half. Výjimka: časované/rychlostní testy nebo testy s pravidlem ukončení. ◦ Počet správně vyřešených položek za 1 minutu (např. Test pozornosti d2). ◦ „Ukončete administraci po 5 chybných odpovědích“ (např. Wechslerovy testy). ◦ Datová matice obsahuje řadu chybějících dat na koncích řádků. Určité výhody i u velkých datasetů (N>1000, ideálně N>5000). Kompozitní reliabilita Někdy též reliabilita lineární kombinací. Jaká je reliabilita (vícedimenzionálního) skóre založeného na součtu více škál? ◦ Běžné odhady typu Cronbachova alfa zpravidla vedou k podhodnocení. Více přístupů, užitečná je zejm. stratifikovaná Cronbachova alfa (1965): ◦ 𝛼 𝑠𝑡𝑟𝑎𝑡 = 1 − σ𝑖=1 𝑘 𝜔 𝑖 2 𝜎𝑖 2 1−𝑟𝑖𝑖′ 𝜎 𝑍 2 ◦ 𝜔𝑖 – „váha“ testu i (zpravidla 1); 𝜎𝑖 2 – rozptyl testu i; 𝑟𝑖𝑖′ – reliabilita testu i ◦ Pro výpočet stačí kovarianční matice a reliability subtestů. ◦ Předpoklady tau-ekvivalence položek v testech, tau-ekvivalence testů, ortogonální disturbance. Dále pak koeficienty omega (viz přednáška 4). Reliabilita rozdílu Jak reliabilní je používání rozdílu mezi dvěma testy? ◦ Například VIQ a PIQ ve WAIS-III? 𝑟𝑥−𝑦 = 𝜎 𝑥 2 𝑟 𝑥𝑥′+𝜎 𝑦 2 𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 𝜎 𝑥 2+𝜎 𝑦 2−2𝑟 𝑥𝑦 𝜎 𝑥 𝜎 𝑦 , ◦ kde 𝜎𝑥 2 a 𝜎 𝑦 2 jsou rozptyly obou testů, 𝑟𝑥𝑥′ a 𝑟𝑦𝑦′ jejich reliability a 𝑟𝑥𝑦 je jejich korelace. ◦ jmenovatel je roven rozptylu výsledných rozdílů. Pokud 𝜎𝑥 2 = 𝜎 𝑦 2 = 𝜎𝑥𝑦 2 (v případě standardizovaných testů), pak: ◦ 𝑟𝑥−𝑦 = 𝜎𝑥𝑦 2 𝑟 𝑥𝑥′+𝑟 𝑦𝑦′ −2𝑟 𝑥𝑦 2−2𝑟 𝑥𝑦 Reliabilita rozdílu Standardní chybu rozdílu lze spočítat s pomocí SD a SE vlevo, nebo prostřednictvím vzorce dříve. Toto je důvod, proč je problematická interpretace rozdílu vysoce korelovaných subtestů. ◦ Téměř u nikoho se neliší... rxx‘ ryy‘ rxy rx-y SDx-y SEx-y CI95% 0,7 0,8 0 0,75 21,2 10,6 20,8 0,7 0,8 0,2 0,69 19,0 10,6 20,8 0,7 0,8 0,4 0,58 16,4 10,6 20,8 0,7 0,8 0,6 0,38 13,4 10,6 20,8 0,7 0,7 0,6 0,25 13,4 11,6 22,8 0,9 0,9 0,8 0,50 9,5 6,7 13,1 0,9 0,9 0,45 0,82 15,7 6,7 13,1 0,6 0,6 0,5 0,20 15,0 13,4 26,3 0,7 0,7 0,65 0,14 12,5 11,6 22,8 Další odhady vnitřní konzistence Guttmanovy lambdy (1945) ◦ Šest různých odhadů „spodní hranice“ reliability λ1–λ6. Důležité jsou tři: ◦ λ3 je shodná s Cronbachovou alfa (Cronbach poskytl doplňující důkazy, proto se jmenuje po něm). ◦ λ4 je odhad nejvyšší možné split-half reliability. Někdy se označuje jako „glb“, Greatest-Lower Bound of reliability. ◦ λ6 je podobná McDonaldově omega. Omega (McDonald 1978, resp. 1999). Více na přednášce o faktorové analýze. ◦ Založeny na (hierarchické) faktorové analýze; celá sada odhadů. ◦ Např. 𝜔 = σ 𝜆 𝑖 2 σ 𝜆 𝑖 2+σ 𝜎 𝜀 𝑖 2 = σ 𝜆 𝑖 2 𝜎 𝑥 2 , kde 𝜆𝑖 jsou faktorové náboje položek, 𝜎𝜀 𝑖 2 unicity a 𝜎𝑥 2 rozptyl testu. ◦ ωhierarchical – jaká část rozptylu lze připsat „společnému faktoru“? ◦ ωtotal – jaká část rozptylu v měření nelze připsat náhodě? ◦ Pro jednodimenzionální tau-ekvivalentní test ωh = ωt = α. A řada dalších. ◦ Raykovovo (1998) ρ a Armorova (1974) θ (pro lokálně závislé položky), jejich ordinální varianty založené na matici polychorických korelací atd. ◦ Cronbachovo alfa má striktní předpoklady a zpravidla podhodnocuje. ◦ Kvalitní přehled viz např. http://tx.liberal.ntu.edu.tw/~purplewoo/Literature/!DataAnalysis/Reliability%20Analysis.htm Cho (2016): http://journals.sagepub.com/doi/abs/10.1177/1094428116656239 Klasická testová teorie (CTT): overview CTT je špatným modelem měření. Není jasné, co to je pravý skór. ◦ Pravý skór je definovaný skrze samotné měření. ◦ Pravý skór je neoddělitelný od měřicího nástroje. ◦ CTT je založena na operacionalismu: definice měření je operacionální. ◦ CTT nepopisuje „data generating process“. CTT je historicky spojená s faktorovou analýzou. Protože CTT předpokládá paralelní položky, celkový skór testu je součtem/průměrem položek. ◦ Ale co když položky nejsou paralelní? Přesto je CTT jednoznačně nejvíce používanou teorií měření v sociálních vědách. ◦ I bodování v psychometrice je založené na součtu správných odpovědí v testech... Reliabilita: overview Reliabilita je ukazatelem kvality testu. ◦ Řada doporučení ohledně minimální hranice přípustné reliability. Typicky Klineovo pravidlo: 𝑟 𝑥𝑥′ > 0,7. ◦ Záleží ale na účelu testu: nižší nároky pro výzkumné metody, vyšší nároky pro metody určené do praxe, nejvyšší nároky na high-stakes testy (SCIO, inteligenční test...). ◦ V případě výzkumu záleží i na způsobu využití (SEM vs. pozorované skóry). Typické hodnoty reliability: ◦ Nejlepší metody (celkový skór IST-2000-R) nebo testy základních kognitivních funkcí (Bourdonova zkouška): 𝑟 𝑥𝑥′ > 0,95. ◦ Dobré testy: 𝑟 𝑥𝑥′ > 0,90. Ve výzkumu i 𝑟 𝑥𝑥′ > 0,7. Reliabilita jako podklad pro práci s chybou při praktické psychologické diagnostice. ◦ Viz seminář. Nelineární vztah reliability a chyby měření