Přednáška 6: Teorie zobecnitelnosti 24. 11. 2024 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler | cigler@fss.muni.cz CTT: Hodně chyb, hodně reliabilit... Mnoho způsobů odhadů reliability a druhů chyby v rámci CTT: ◦ stabilita v čase = test–retest: korelace, regrese, ICC... ◦ vnitřní konzistence: alfa, omega, split-half, GLB... ◦ ekvivalence = reliabilita paralelních forem: korelace, regrese, ICC... ◦ shoda posuzovatelů: Cohenovo/Fleissovo kappa, Krippendorfova alfa, ICC... ◦ To „mnoho“ znamená něco jiného než „mnoho“ vnitřních konzistencí na předchozí přednášce o CTT. ◦ Napříč různými kontexty se mohou lišit pravé skóry, fungování paralelních testů, jejich stabilita a podobně. ◦ V tomto ohledu více viz Ellis, J. L. (2021). A Test Can Have Multiple Reliabilities. Psychometrika, 86(4), 869–876. https://doi.org/10.1007/s11336-021-09800-2 Co ale s tím? Kterou „reliabilitu“ si vybrat? ◦ Pro různé účely? CTT: Hodně chyb, hodně reliabilit... Paralelní testy: ◦ Výběr (sampling)… ◦ … testového skóre (pozorovaného skóre)… ◦ … „náhodného“ vzorku respondentů… ◦ … ze všech (nekonečně mnoha)… ◦ … přípustných (paralelních) testů… ◦ … sdílejících pravý skór. Nakolik je ale pravé skóre univerzální napříč různými situacemi? Korelace paralelních testů napříč různými situacemi se může lišit. ◦ Neexistují žádné „univerzálně-paralelní“ testy; vždy jsou paralelní jen v nějakém kontextu. ◦ Při měření zobecňujeme na paralelní testy v rámci tohoto kontextu (prostoru). Teorie zobecnitelnosti Generalizability Theory (GT) Lee J. Cronbach (1916–2001) Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Teorie zobecnitelnosti Generalizability Theory (GT) Lee J. Cronbach (1916–2001) Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Cronbach, 1991, cit. dle Brenan (2001, s. 3) Klíčové publikace Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Theory of generalizability: A liberation of reliability theory. The British Journal of Statistical Psychology, 16(2), 137-163. https://doi.org/10.1111/j.2044-8317.1963.tb00206.x Cronbach, L.J., Gleser, G.C., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles. John Wiley. Shavelson, R.J., & Webb, N.M. (1991). Generalizability Theory: A Primer. Sage. Brennan, R. L. (2001). Generalizability Theory. Springer. ◦ Tohle je nejvíce aktuální a komprehenzivní zdroj, který je v současnosti k dispozici. ◦ Konceptuálně recentní, nezohledňuje jen poslední vývoj v estimaci modelů. Cronbachovo alfa Cronbachova alfa (1951) není tak docela Cronbachova: ◦ KR-20 (Kuder-Richardson, 1937); Rulonův vzorec (1939); Guttmanova korekce s λ3 (1945); Hoytův vzorec (1941). Cyril Hoyt (1941) – odhad reliability pomocí ANOVA: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝑥 2 = 𝜎𝑥 2 − 𝜎𝑒 2 𝜎𝑥 2 = 𝑛 − 1 𝜎𝑥 2 − 𝜎𝑒 2 𝑛 − 1 𝜎𝑥 2 = 𝑀𝑆𝜏 𝑀𝑆 𝑥 = 𝑀𝑆 𝑥 − 𝑀𝑆 𝑒 𝑀𝑆 𝑥 ◦ 𝑀𝑆 𝑥 - mean-square, tj. průměr sumy čtverců, tj. nepodělený rozptyl (var 𝑥 = 𝑀𝑆 𝑥 𝑛−1 ). ANOVA umí „parcelovat“ pozorovaný rozptyl (ANalysis Of Variance). ◦ Typická ANOVA: jakou část pozorované variability (𝑀𝑆 𝑥) lze přičíst rozdílům mezi lidmi (between-subjects, 𝑀𝑆 𝜏) a jaká je způsobena rozdílům uvnitř (within-subjects, 𝑀𝑆 𝑒)? ◦ Resp. pomocí F-testu ověřujeme, zda je 𝑀𝑆 𝜏 > 0. Kuder, G. F., & Richardson,M.W. (1937). The theoryof the estimation oftest reliability. Psychometrika,2(3), 151–160. https://doi.org/10.1007/BF02288391 Rulon,P. J. (1939). A simplified procedure for determiningthe reliabilityofa test by split-halves. Harvard Educational Review, 9, 99–103. Hoyt, C. (1941). Test reliabilityestimatedbyanalysis ofvariance. Psychometrika, 6(3), 153–160. https://doi.org/10.1007/BF02289270 Guttman, L. (1945). A basis for analyzint test-retestreliability. Psychometrika, 10(4), 255–282. https://doi.org/10.1007/BF02288892 Cronbach,L. J. (1951). Coefficient alpha and the internal structure oftests. Psychometrika, 16(3), 297–334. https://doi.org/10.1007/BF02310555 Hoytův postup Hoyt použil ANOVAk parcelování pozorované rozptylu odpovědílidí na paralelní testy(položky). Postupvýpočtu (přibližně, bez korekcí): ◦ 1. Pro každou osobu průměr ത𝑋 𝑝 napříč všemi položkami. ◦ 2. Rozptyl průměrů osob: var ത𝑋 𝑝 = 𝜎𝑥 2 . ◦ 3. Rozptyl odchylek jednotlivých pozorování 𝑥𝑖𝑝 osob 𝑝 na pol. 𝑖 od jejich průměrů ത𝑋 𝑝 jako: 𝜎𝑟𝑒𝑠 2 = σ 𝑝=1 𝑁 σ𝑖=1 𝐼 𝑥𝑖𝑝 − ത𝑋 𝑝 2 𝑁𝐼 ◦ 4. Standardní chyba odhadu průměru z 𝐼 položek jako 𝜎𝑒 = 𝜎 𝑟𝑒𝑠 2 𝐼 ◦ Výpočet „přes všechnyosoby“,obcházítak potížes opakovanýmměřenímjednéosoby – chyba je stejná pro všechny(viz minulá přednáška). ◦ 5. Reliabilita jako 𝑟 𝑥 𝑥′ = 1 − 𝜎 𝑒 2 𝜎 𝑥 2. ◦ 6. Standardní chyba měření: Buď z reliability jako 𝑆𝐸 = 𝜎𝑥 1 − 𝑟 𝑥 𝑥′ nebo přímo jako 𝑆𝐸 = 𝜎𝑒 = 𝜎 𝑟𝑒𝑠 2 𝐼 . Výsledek je ekvivalentní Cronbachovu alfa, asymptomatickyse rovná průměru všech možnýchsplithalf reliabilit (Cronbach, 1951). ◦ Kde 𝑁𝐼 je počet osob (N) krát počet položek (I; celkový počet pozorování = kusů informace). Hoytův postup Připomenutí: postup je ekvivalentní koeficientu alfa. Tau-ekvivalence (všechna pozorování mají stejnou váhu, E σ 𝑖=1 𝐼 E 𝑋 𝑝𝑖 𝐼 = 𝜏 𝑝). ◦ Paralelnost položek (shodné reziduální rozptyly) lze obejít skrze „průměrnou chybu“. Neexistence jiného zdroje rozptylu, než: ◦ Systematická variabilita ve schopnostech lidí (𝜎 𝑝 2 ). ◦ Systematická variabilita v obtížnostech položek (𝜎 𝑝𝑖 2 ). ◦ Náhodná variabilita v tom, jak různí lidé odpověděli na různé položky (𝜎 𝑝𝑖,𝑒 2 ) – chyba. Co když je ale zdrojů více? ◦ Situace a změna rysu v čase, okolnosti testování, hodnotitel, dílčí oblast znalostí... Teorie zobecnitelnosti (Generalizability theory) Řešením CTT problému „mnoho chyb, mnoho reliabilit“ je teorie zobecnitelnosti. ◦ Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Theory of generalizability: A liberation of reliability theory. The British Journal of Statistical Psychology, 16, 137-163. ◦ Cronbach, L.J., Gleser, G.C., Nanda, H., & Rajaratnam, N. (1972). The Dependability of Behavioral Measurements. New York: Wiley. CTT: 𝑋 = 𝑇 + 𝑒 GT: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + … + 𝑒 𝑘 ◦ Kde např. e1 je specifický skór v daném čase (test-retest), e2 rozdílnost posuzovatelů (shoda posuzovatelů), e3 rozdílnost položek (vlastní „nepřesnost metody“, vnitřní konzistence) atd. ◦ Pro různé účely může T zahrnovat i některé chyby (např. nás zajímá výkon v daném čase a nikoliv stabilita napříč časem, přestože víme, že výkon není stabilní). Protože ale např. i ten stejný hodnotitel může hodnotit různě v různých situacích, je vhodné zdůraznit interakce jednotlivých komponent: ◦ 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + 𝒆 𝟏𝟐 + 𝒆 𝟏𝟑 + 𝒆 𝟐𝟑 + 𝒆 𝟏𝟐𝟑 … Jinými slovy... CTT: Pouze dva zdroje variability ◦ systematický = pravý skór ◦ chybový = chyba měření ◦ irelevantní = obtížnost položek GT: Neomezeně zdrojů variability ◦ všechny jsou náhodné ve smyslu výběru z populace („prostoru“) ◦ některé mohou být systematické, jiné chybové, další irelevantní. Heitman et al. (2009) Jinými slovy... „The theory describes the dependability (reliability) of generalizations made from a person’s observed score on a test to the score he or she would obtain in the broad universe of admissible observations—her “universe score” (true score in classical test theory). Hence the name, Generalizability Theory.“ (Shavelson & Webb, 2006) Universe score – problém s překladem. Proto anketa na FB: ◦ 42 (J. Brojáč, osobní komunikace 30. 9. 2019) ◦ globální skór, ideální skór (V. Pišl, osobní komunikace 30. 9. 2019) ◦ vesmírnej skór (A. J. Kšiňan, osobní komunikace 30. 9. 2019), skór veškera (J. Štipl, osobní komunikace 30. 9. 2019), skór veškerenstva (H. Cígler & R. Modré, osobní komunikace 30. 9. 2019) ◦ všeobecný skór (M. Čadek, osobní komunikace 30. 9. 2019) ◦ skór univerza, skór v univerzu, obecný skór (A. Ťápal, osobní komunikace 30. 9. 2019) Princip a účel GT GT primárně nepracuje se součtovým skóre jako CTT, ale s průměrným skóre. ◦ „Průměrná odpověď“ napříč „prostorem zobecnění“ (všemi možnými respondenty, položkami, situacemi...). Universe of generalization. ◦ Reliabilita průměrného a součtového skóre je ale stejná (stačí vynásobit počtem pozorování). ◦ Tato průměrná odpověď pro konkrétního respondenta se označuje jako universe score. ◦ Jednotlivé zdroje rozptylu (kromě rozdílů mezi respondenty) se označují jako fasety. Dvě klíčové části GT: ◦ G-studie: Jak velké části rozptylu odpovědi na jednu položku v jedné situaci jedním respondentem (atd.) jsou „vysvětleny“ jednotlivými fasetami a rozdíly mezi respondenty samotnými? ◦ D-studie: Jaká bude chyba měření při využití „opakovaného měření“ v konkrétních fasetách? ◦ Např. při měření 10 položkamipři 3 administracích, hodnocených 2 hodnotiteli? ◦ Využívá výsledků G-studie. Princip a účel GT Podobné předpoklady jako CTT, jde o její rozšíření. ◦ Náhodný výběr prvků dané fasety z nekonečně velkého doménového prostoru. ◦ Existují ale i úpravy pro „finite universe“. ◦ Náhodný výběr lze obejít „zafixováním“určité fasety – „fixed effects“ namísto„random effects“. Další běžné předpoklady CTT. ◦ Jednodimenzionalita, resp. lokální nezávislost (ale existují multivariate úpravy), normální rozdělení (ale...), odpovědi na intervalové škále (ale robustnost stejně jako u CTT) atd. ◦ Tau-ekvivalence a přibližně stejný reziduální rozptyl, což je zajištěno předpokladem náhodného výběru. Relativně vysoká robustnost zvláště při větším počtu položek. ◦ Vícedimenzionalita možná při dodržení tau-ekvivalence faset na univerzu; analogie k hierarchické ρSOF (Cho, 2016) Některé postupy GT „zobecněly“ v běžných CTT postupech. ◦ Hoyt (1941) a zejm. vnitrotřídní korelace (ICC, intra-class correlation; Shrout & Fleiss, 1979). Princip a účel GT Stejně jako CTT, i GT vychází z operacionalismu. ◦ Měřeným atributem je universe score, nikoli psychický rys (latentní proměnná). ◦ Měření je tedy definováno skrze měřicí nástroj; v tomto případě spíše skrze způsob tvorby položek a popis „univerza položek“, nikoliv konkrétně vybrané položky v daném testu. Jde tedy společně s CTT o „slabou teorii měření“, na rozdíl třeba od IRT. ◦ „Weak true-score theory“. Logika GT je nicméně využívána i v jiných teoriích měření, kde je rozptyl měřeného rysu „parcelován“ na dílčí složky. ◦ Multifasetové Raschovy modely. ◦ Hierarchické (multilevel) IRT modely a hierarchická (multilevel) faktorová analýza. ◦ Explanační IRT modely, LLTM a další. Teorie zobecnitelnosti Dva klíčové postupy/kroky/součásti GT: 1. Studie zobecnitelnosti (G-studie; generalizability study) 2. Rozhodovací studie (D-studie; decision study) G-studie Studie zobecnitelnosti Generalizability study Dekompozice rozptylu Odhad rozptylových komponent ANOVA Smíšený lineární model (linear mixed model, LMM) https://community.jmp.com/t5/Discussions/How-to-implement-variance-decomposition/td-p/272070 G-studie G-studie = generalizability study (studie zobecnitelnosti) ◦ Odhaduje chybový rozptyl pojící se s jednotlivými fasetami a jejich interakcemi, resp. chybu pojící se s jednou položkou/jedním měřením/apod. (a interakcemi). ◦ Tedy jakou část rozptylu jednoho pozorování (interakce respondenta × položky × situace × hodnotitele × ...) tvoří jednotlivé specifické části rozptylu související s respondenty/položkami/situacemi/... Zobecňuje z měření na prostor (universum). ◦ Na základě měření odhaduje rozptylové komponenty v prostoru. ◦ Z pozorovaných rozptylových komponent ve vzorku usuzuje na komponenty v prostoru (populaci všech přípustných pozorování). ◦ Tohle je ta výpočetně náročnější část GT. G-studie: Rozptylové komponenty KLASICKÁ TESTOVÁ TEORIE Složení pravého skóru*: 𝑋 = 𝑇 + 𝑒 Rozptylové komponenty: 𝜎𝑥 2 = 𝜎𝜏 2 + 𝜎𝑒 2 Reliabilita: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 ◦ pravý skór a chyba jsou ortogonální, proto chybí jejich kovariance („+2𝜎𝜏𝑒 2 “) TEORIE ZOBECNITELNOSTI Složení obecného skóru – např. 2fasetový design*: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒𝜏1 + 𝑒𝜏2 + 𝑒12 + 𝑒𝜏12,𝑒 Rozptylové komponenty: 𝜎𝑥 2 = 𝜎𝜏 2 + 𝜎1 2 + 𝜎2 2 + 𝜎𝜏1 2 + 𝜎𝜏2 2 + 𝜎12 2 + 𝜎𝜏12,𝑒 2 Reliabilita**: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎1 2 + 𝜎2 2 + 𝜎𝜏1 2 + 𝜎𝜏2 2 + 𝜎12 2 + 𝜎𝜏12,𝑒 2 ◦ Všechny rozptylovékomponenty jsou ortogonální (protože jsou zahrnuty všechny), proto též bez kovariance. ◦ Z toho důvodu se zahrnují do G-studie i nesignifikantní efekty. ◦ Obecný vzorec; některé komponenty v některých scénářích mohou chybět. * Subskripty příslušející osobě vynechány(vyjma interakcí).| ** Vzorec byplatil při administraci jediné položky;pro běžné D-studie viz vzorce dále. G-studie: příklad Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf Příklad: 2fasetový design p × i × o. ◦ N respondentů p (persons) ◦ Osoby jsou atributem, proto se nepočítají do počtu faset. ◦ 3 položky i (items) ◦ 2 administrace/situace o (occasions) Pozorovaný skór X a obecný skór T: ◦ 𝑋 𝑝 = mean 𝑋 𝑝𝑖𝑜 ; E 𝑋 𝑝 = E 𝑋 𝑝𝑖𝑜 = 𝑇𝑝 Pozorovaný skór je součtem všech komponent: 𝑋 𝑝𝑖𝑜 = 𝑇𝑝 + 𝑒𝑖 + 𝑒 𝑜 + 𝑒 𝑝×𝑖 + 𝑒 𝑝×𝑜 + 𝑒𝑖×𝑜 + 𝑒 𝑝×𝑖×𝑜 Celkový rozptyl pozorovaného skóre (prvků datové matice): 𝜎 𝑋 𝑝𝑖𝑜 2 = 𝜎𝑝 2 + 𝜎𝑖 2 + 𝜎𝑜 2 + 𝜎𝑝𝑖 2 + 𝜎𝑝𝑜 2 + 𝜎𝑖𝑜 2 + 𝜎𝑝𝑖𝑜,𝑒 2 G-studie: příklad 𝑋 𝑝𝑖𝑜 = 𝑇𝑝 + 𝑒𝑖 + 𝑒 𝑜 + 𝑒 𝑝×𝑖 + 𝑒 𝑝×𝑜 + 𝑒𝑖×𝑜 + 𝑒 𝑝×𝑖×𝑜 Skóre osoby p na položce i v čase o obecný skór osoby p (očekávaná odpověď napříč všemi položkamia okolnostmi, 𝑇𝑝 = E 𝑋 𝑝𝑖𝑜 Obtížnostsituace o (např. vliv denní doby) Individuální obtížnost položky i pro člověka p (např. specifická znalost) individuální obtížnost položky i v situaci o (např. senzitivita položky vůči únavě a denní době) Obtížnostpoložky i individuální obtížnost situace o pro osobu p (např. nahodilá únava) reziduum (odchylka pozorované odpovědi oproti všem ostatním systematickýmvlivům) Vzorec obsahuje celkový efekt osob a diskrepančníefektypoložeka situací.Pro lepší zápis pomocí celkových efektů viz Shavelson a Webb (2005; vzorec36.1, s. 602). Vzorec obsahuje celkový efekt osob p a diskrepančníefektypoložek i a situací o, naopakgrand-mean (intercept)je vynechaný.Pro alternativnízápis pomocí celkových efektů viz Shavelson a Webb (2005; vzorec 36.1, s. 602); pro získání celkových efektů z diskrepančních je potřeba přičíst 𝑇𝑝. Např.celková „snadnost“situace je 𝑇𝑝 + 𝑒 𝑜, celková individuální popularita položky i pro osobu p je 𝑇𝑝 + 𝑒𝑖 + 𝑒 𝑝×𝑖. Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf G-studie: Odhad rozptylových komponent Historicky GT využívala ANOVA. ◦ Fasety – „faktory“ v tradiční ANOVA terminologii. ◦ Proměnné jsou uvažovány jako random (např. náhodný výběr času) nebo fixed effect (např. test stabilně složený ze stejných položek). ◦ Random modely jsou častější. ◦ LS estimátor (least-squares). ◦ Více statistických předpokladů. Aktuálně se zpravidla používá LMM (linear mixed model). ◦ Smíšený lineární model. ◦ Výhody při odhadu. ◦ Unbalanced designy, chybějící data apod. ◦ Menší předpoklady, vyšší flexibilita. ◦ Výsledek by se neměl lišit (při dodržení předpokladů), reálně jsou odlišnosti malé. ◦ ML estimátor (maximum-likelihood). GT: SW pro odhad G-studie Tradiční SW: ◦ GENOVA, mGENOVA (staré DOSovské aplikace). SPSS (lze ručně upravit syntax pro mixed-modely). ◦ Mushquash,C. andO’Connor,B.P. (2006). SPSS and SAS programsfor generalizabilitytheoryanalyses. Behavior ResearchMethods,38(3), 542–547. doi: 10.3758/bf03192810 ◦ A tedy vlastně jakýkoli SW s modulem pro lineární smíšené (mixed) modely (JAMOVI, JASP)... R, zejména balíček lme4 (mixed modely) a případně gtheory (nástavba lme4 pro GT). ◦ Případně pak hemp dostupný na githubu (doplněk ke knize Desjardins & Bulut, 2018). Přehled dostupných programů (poněkud outdated): ◦ Taşdelen Teker, G., Güler, N. and Kaya Uyanık, G. (2015). Comparingthe effectiveness ofSPSS and EduGusingdifferentdesigns for Generalizabilitytheory. Educational Sciences:Theory& Practice, 15(3). doi: 10.12738/estp.2015.3.2278 ◦ Yelboga,A. (2015). Estimation ofGeneralizabilitycoefficient:An applicationwith differentprograms. Archivesof CurrentResearch International, 2(1), 46–53. doi: 10.9734/acri/2015/17409 V předchozím případě by syntax pro R byl: ◦ Předpokladem je převedení na tzv. dlouhý formát, kde jeden řádek = 1 odpověď, a další proměnné jsou person (1-N), item (1-3), ocassion (1-2) require(lme4) require(gtheory) model <- "response ~ (1 | person) + (1 | item) + (1 | occasion) + (1 | person:item) + (1 | person:occasion) + (1 | item:occasion)" Pozn.: poslední chybovou fasetou je (1 | person:item:occasion) – ta reprezentuje „zbytek“a je proto chybou v klasickém slova smyslu (vše, co není vysvětleno ničímpředchozím),protoji není nutné do modelu zadávat,je tam implicitně). gstudy <- gstudy(data = data, formula = model) print(gstudy) Dlouhá data: GT: Způsob odhadu G-studie v R odp. P I O 4 1 1 1 2 1 2 1 5 1 3 1 4 1 1 2 odp. P I O 3 1 2 2 4 1 3 2 3 2 1 1 1 2 2 1 Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf D-studie Rozhodovací studie Decision study Koeficient dependability a zobecnitelnosti Absolutní a relativní D-studie Všechny výpočty jsou součástí R skriptu publikovaného ve studijních materiálech. D-studie Rozhodnutí jsou založena na průměru pozorování napříč určitými podmínkami. D-studie odhaduje jistotu takového rozhodnutí (chybu měření). ◦ Rozhodovací (Decision) studie tedy slouží k odhadu chyby měření pro konkrétní design s využitím informací z G-studie. Definuje tzv. „prostor zobecnění“ (použitými fasetami, počtem pozorování/položek v jejich rámci atp.), pro který bude naše měření platit. ◦ V rámci tohoto prostoru má každý respondent tzv. U-skór (pravý skór, 𝑇𝑝). Odhad chyby odhadu universe skóru pro zvolený hypotetický design – např. p×I×O, kdy se zajímáme o chybu spjatou s 𝑋 𝑝𝐼𝑂 = ത𝑋 𝑝 ◦ Malá písmena označují jedinou administraci (tedy zpravidla objekt měření). ◦ Velká písmena indikují průměrné skóry („skrze co“ průměrujeme). D-studie: Obecný postup 1. Volba jednotky/subjektu měření (nemusí být respondent). 2. Volba designu, resp. prostoru/prostorů zobecnění. 3. Identifikace, které fasety (a interakce) G-studie jsou chybové složky. 4. Volba počtu prvků faset (nemusí se shodovat s G-studií). 5. Výpočet chyby měření. 6. Výpočet koeficientu reliability. D-studie: Dva typy zobecnění Relativní (norm-referenced) – pořadí v rámci vybraných prvků fasety. ◦ Všechny fasety jsou stejné napříč měřením (např. test složený z pevného setu položek). ◦ Díky fixaci se jejich prvky stanou konstantou a rozdílná „obtížnost“ není chybou. ◦ Nezobecňuje se na celý fasetový prostor, ale na pořadí v rámci vybraných prvků dané fasety. ◦ Reliabilita odhadována pomocí koeficientu zobecnitelnosti. ◦ Srovnatelný s různými druhy CTT reliability. Absolutní (kriteriální) – absolutní výkon v rámci všech prvků celé fasetu. ◦ Tento odhad nese více nejistoty (záleží na náhodně „vybrané“ obtížnosti prvků fasety). ◦ Reliabilita odhadována pomocí koeficientu spolehlivosti (dependability coef.). ◦ Lze uvažovat pravděpodobnost překročení absolutního kritéria. Spíše než otázka celého designu otázka dílčích faset (smíšený design). D-studie: Dva typy zobecnění (příklady) RELATIVNÍ D-STUDIE Dotazník self-esteemu (SE) ◦ Nezajímá mě, jak by respondent skóroval na případných jiných položkách, které měří SE. ◦ Posvátná kráva? ☺ Hodnocení písemného testu v psychometrice. ◦ Všechny testy hodnotí Karel. Zanedbáváme, jak by bodovali jiní hodnotitelé. Přijímací zkouška do NMGR psychologie. ◦ Chceme vybrat 30 nejlepších uchazečů, nezáleží na tom, jak obtížné položky jsou letos v testu. ABSOLUTNÍ D-STUDIE „Super-komplexní dotazník depresivity“. ◦ Náhodný výběr 10 symptomů ze všech identifikovanýchsymptomů deprese. ◦ Záleží, zda jsme vybrali časté či řídké symptomy. Hodnocení seminární práce v psychometrice. ◦ Do hodnocení jsou zapojeni tři lidé; protože se liší přísností, záleží, kdo je komu „přidělen“. Přijímací zkouška do NMGR psychologie. ◦ Přijatý musí mít nejméně 36/60 bodů. ◦ Byly zařazeny jednoduché či těžké položky? D-studie: Odhad chyby měření Celková chyba odhadu obecného skóru = suma čtverců chyb odhadu komponent. ◦ Chyba odhadu dílčí komponenty = standardní chyba průměru1. ◦ Tedy rozptylová komponenta z G-studie dělená počtem pozorovaných prvků dané fasety: 𝜎𝑒 2 = 𝜎𝑒1 2 𝑛1 + 𝜎𝑒2 2 𝑛2 + 𝜎𝑒3 2 𝑛3 + ⋯ + 𝜎𝑒𝑘 2 𝑛 𝑘 Reliabilita se potom spočítá dle obecného vzorce pro vysvětlený rozptyl: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 ◦ 𝜎𝜏 2 - rozptyl jednotek měření, tedy ideálních skórů ◦ 𝜎𝑒 2 - chybový rozptyl, tedy součet všech chybových komponent 1 standardní chyba průměru 𝑆𝐸 = 𝑆𝐷 𝑁 → 𝑆𝐸2 = 𝑆𝐷2 𝑁 ; SD – směrodatná odchylka; N – velikost vzorku/počet pozorování. Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf Příklad 1: Relativní D-studie Chyba průměrného skóre ze 2 administrací 10položkového testu, p×I×O? Relativní chybový rozptyl 𝜎𝛿 2 : 𝜎𝛿 2 = 𝜎𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .810 1 × 10 + .230 1 × 2 + 1.413 1 × 10 × 2 = .267 Podíl chybového rozptylu (reliabilita): koeficient zobecnitelnosti: 𝐺 = 𝜌2 = 𝜎𝑝 2 𝜎𝑝 2 + 𝜎𝛿 2 = 1,108 1,108 + 0,267 = 𝟎, 𝟖𝟎𝟔 Ekvivalence s CTT: v jednofasetovém designu p×I je koeficient zobecnitelnosti shodný s koeficientem alfa. Příklad 2: Absolutní D-studie Absolutní chyba průměrného skóre 10 položek a 2 měření, p×I×O? ◦ Zobecňuji napříč všemi přípustnými položkami i časem (admissible observation). Absolutní chybový rozptyl 𝜎∆ 2 : 𝜎∆ 2 = 𝜎𝑖 2 𝑁𝑖 + 𝜎𝑜 2 𝑁𝑜 + 𝜎𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = = .102 10 + .030 2 + .810 1 × 10 + .230 1 × 2 + .001 10 × 2 + 1.413 1 × 10 × 2 = .292 Příklad 2: Absolutní D-studie Absolutní chyba průměrného skóre 10 položek a 2 měření, p×I×O? ◦ Zobecňuji napříč všemi přípustnými položkami i časem (admissible observation). Absolutní chybový rozptyl 𝜎∆ 2 : 𝜎∆ 2 = 𝜎𝑖 2 𝑁𝑖 + 𝜎𝑜 2 𝑁𝑜 + 𝜎𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = = .102 10 + .030 2 + .810 1 × 10 + .230 1 × 2 + .001 10 × 2 + 1.413 1 × 10 × 2 = .292 Podíl chybového rozptylu: koeficient spolehlivosti Φ (dependability): Φ = 𝜎𝑝 2 𝜎𝑝 2 + 𝜎∆ 2 = 1,108 1,108 + 0,292 = 0,791 Příklad 3: Smíšená D-studie 10 položek a 2 měření, , p×I×O, ale: ◦ 10 položek: relativní faseta (zobecňujeme na těchto 10 položek, ne na všechny možné). ◦ 2 situace: absolutní faseta (zobecňujeme na všechna možná pozorování napříč časem). Chybový rozptyl: 𝜎𝛿 2 = 𝜎𝑜 2 𝑁𝑜 + 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .030 2 + .810 1 × 10 + .230 1 × 2 + .001 10 × 2 + 1.413 1 × 10 × 2 = .282 Koeficient zobecnitelnosti: 𝐺 = 1,108 1,108+0,482 = 0,797 Příklad 4: Absolutní D-studie: Kritérium V některých situacích můžeme pracovat s předem stanoveným absolutním kritériem 𝝀. ◦ Například klinické cut-off skóre, potřebný počet bodů k přijetí apod. Koeficient spolehlivosti klasifikace: Φ 𝜆 = 𝜎 𝑝 2 + ത𝑋 − 𝜆 2 − 𝜎 ҧ𝑥 2 𝜎 𝑝 2 + ത𝑋 − 𝜆 2 − 𝜎 ҧ𝑥 2 + 𝜎∆ 2 ◦ ത𝑋 – pozorovaný průměr ◦ 𝜎 ҧ𝑥 2 – chyba odhadu průměru (spočítaná pomocí absolutní D-studie). ◦ Obdobný odhad jako 𝜎∆ 2 , jen 𝑁 𝑝 ≠ 1 a navíc komponenta 𝜎 𝑝 2 𝑁 𝑝 . ◦ V případě známého populačního průměru 𝜇 jej dosadíme namísto ത𝑋 a 𝜎 ҧ𝑥 2 ve vzorci nefiguruje. Φ 𝜆 je vyšší, čím dále je kritérium 𝜆 od průměru osob 𝜇. Reliabilita klasifikace. D-studie: absolutní Uvažuje veškeré fasety jako náhodné, přičemž vliv těchto faset se může lišit napříč osobami. Případně nás zajímá skór napříč všemi potenciálními prvky všech faset (typicky u kriteriálních výkonových testů): ◦ Relativní: 70 % správně z daných 10 položek. ◦ Absolutní: 70 % správně ze všech možných položek. Zobecňuje tedy na universe score napříč celým (nejvyšším) prostorem zobecnění: „universe of admissible observartions“. ◦ Náhodný výběr položek, časů, hodnotitelů ze všech možných atd. ◦ Tento universe score bude mít tedy vyšší chybu než universe score ve kterémkoli více omezeném prostoru. Smíšená D-studie: Vztah s CTT koeficienty Vnitřní konzistence při designu G-studie 𝑝 × 𝑖 × 𝑜: ◦ Relativní D-studie: 𝑝 × 𝐼 × 𝑜, kde 𝑁𝑜 = 1 (fixed) a 𝐼 je fixed. ◦ 𝜌2 = 𝜎 𝑝 2+𝜎 𝑝𝑜 2 𝜎 𝑝 2+𝜎 𝑝𝑜 2 + 𝜎 𝑝𝐼 2 +𝜎 𝑝𝐼𝑜 2 = ത𝛼 ◦ Rozptyl osob v jednom čase bude zahrnovat kolísání výkonu v čase 𝜎 𝑝𝑜 2 . Test-retest reliabilita při designu G-studie 𝑝 × 𝑖 × 𝑜: ◦ Smíšená D-studie: 𝑝 × 𝐼 × 𝑜, kde 𝑁𝑜 = 1 (random) a 𝐼 je fixed. ◦ 𝜌2 = 𝜎 𝑝 2+𝜎 𝑝𝐼 2 𝜎 𝑝 2+𝜎 𝑝𝐼 2 + 𝜎 𝑝𝑜 2 +𝜎 𝑝𝐼𝑜 2 = 𝑟 𝑥𝑥′ ◦ „Reziduální závislost“položek (tedy systematická část unikátního rozptylu) 𝜎 𝑝𝐼 2 bude navyšovat rozptyl pravého skóre. Reliabilita paralelních forem při designu G-studie 𝑝 × 𝑖: 𝑜 : ◦ Absolutní D-studie: 𝑝 × 𝐼: 𝑜 , kde 𝑁 𝑜 = 1 (random) a 𝐼 je random. ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎 𝑝𝑜 2 +𝜎 𝑝𝐼 2 +𝜎 𝑝𝐼𝑜 2 = 𝑟 𝑥𝑥′ Vnitřní konzistence při 2fasetovém designu G-studie 𝑝 × 𝑖: ◦ Relativní D-studie: 𝑝 × 𝐼 ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+𝜎 𝑝𝐼 2 = 𝛼 Příklad 5: Srovnání designů D-studie (S designem G-studie vždy p×i×o) Relativní: I=10 (relativní), O=2 (relativní) ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎 𝑝𝑜 2 +𝜎 𝑝𝐼 2 +𝜎 𝑝𝐼𝑂 2 = .806 Smíšená: I=10 (relativní), O=2 (absolutní) ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎 𝑂 2+𝜎 𝑝𝑂 2 +𝜎 𝑝𝐼 2 +𝜎𝐼𝑂 2 +𝜎 𝑝𝐼𝑂 2 = .797 Absolutní: I=10 (absolutní), O=2 (absolutní) ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎𝐼 2 +𝜎 𝑂 2 +𝜎 𝑝𝑂 2 +𝜎 𝑝𝐼 2 +𝜎𝐼𝑂 2 +𝜎 𝑝𝐼𝑂 2 = .791 1 delší test p×I×o: I=10 (absolutní), O=1 (absolutní) ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎𝐼 2+𝜎 𝑜 2+𝜎 𝑝𝑜 2 +𝜎 𝑝𝐼 2 +𝜎𝐼𝑜 2 +𝜎 𝑝𝐼𝑜 2 = .692 Vnitřní konzistence: I=10 (relativní), O=1 (fixed) ◦ 𝜌2 = 𝜎 𝑝 2+𝜎 𝑝𝑜 2 𝜎 𝑝 2+𝜎 𝑝𝑜 2 + 𝜎 𝑝𝐼 2 +𝜎 𝑝𝐼𝑜 2 = .858 Test-retest: I=10 (fixed), O=1 (relativní) ◦ 𝜌2 = 𝜎 𝑝 2+𝜎 𝑝𝐼 2 𝜎 𝑝 2+𝜎 𝑝𝐼 2 + 𝜎 𝑝𝑜 2 +𝜎 𝑝𝐼𝑜 2 = .762 Paralelní formy: I=10 (relativní), O=1 (relativní) ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎 𝑝𝐼 2 +𝜎 𝑝𝑜 2 +𝜎 𝑝𝐼𝑜 2 = .710 2 krátké testy p×(I:O): I=2×5 (absolutní), O=1 (absolutní) ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎𝐼 2+𝜎 𝑜 2+𝜎 𝑝𝑜 2 +𝜎 𝑝𝐼 2 +𝜎𝐼𝑜 2 +𝜎 𝑝𝐼𝑜 2 = .753 Příklad 6: Vnitřní konzistence vs. relativní D-studie) (S designem G-studie vždy p×i×o) RELATIVNÍ D-STUDIE 10 položek při jediné administraci: p×I×o ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎 𝑝𝐼 2 +𝜎 𝑝𝑜 2 +𝜎 𝑝𝐼𝑜 2 = .710 ◦ 𝜎 𝑝𝑜 2 = .230 1 10 položek při 10 administracích: p×(I:O) ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎 𝑝𝐼 2 +𝜎 𝑝𝑂 2 +𝜎 𝑝𝐼𝑂 2 = .819 ◦ 𝜎 𝑝𝑂 2 = .230 10 → Reliabilita seřazení osob v rámci univerza všech možných položek a situací. VNITŘNÍ KONZISTENCE (O FIXED) 10 položek při jediné administraci: p×I×o ◦ 𝜌2 = 𝜎 𝑝 2+𝜎 𝑝𝑜 2 𝜎 𝑝 2+𝜎 𝑝𝑜 2 + 𝜎 𝑝𝐼 2 +𝜎 𝑝𝐼𝑜 2 = .858 ◦ 𝜎 𝑝𝑜 2 = .230 1 10 položek při 10 administracích: p×(I:O) ◦ 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2+ 𝜎 𝑝𝐼 2 +𝜎 𝑝𝑂 2 +𝜎 𝑝𝐼𝑂 2 = .819 ◦ 𝜎 𝑝𝑂 2 = .230 10 → Tyto odhady by poskytlo Cronbachovo alfa. Reliabilita seřazení v rámci daných situací. Využití GT Odhad reliability/chyby měření. Vývoj testu: jak se změní reliabilita, pokud použiju jiný počet prvků z domény? ◦ S minimální finanční/časovou náročností maximalizovat reliabilitu testu. ◦ Obdoba SB věšteckého vzorce, ale pro více zdrojů chyb než „počet testů“. GT je velmi cenná v případě, že máme skutečně paralelní položky. ◦ Např. tzv. škrtací testy pro měření reakčního času, kde jsou dílčí položky řazené do bloků (a třeba testované opakovaně). Využití GT: Optimální počet prvků faset Seminární práce. Variuji: ◦ počtem hodnotitelů; ◦ počtem hodnocených prací. Pokud např. chci investovat na každého studenta max. čtyři hodnocené práce, co je nejvýhodnější? ◦ A) 4 pokusy, 1 hodnotitel ◦ B) 2 pokusy, 2 hodnotitelé ◦ C) 3 pokusy, 1 hodnotitel ◦ D) 1 pokus, 4 hodnotitelé Převzato z Brennan (2001) – jde o jiná data než výše. Využití GT: Multilevel design Prvkem měření nemusí být respondent, ale např. školní třída (pak je faseta „žáci“ chybou). Občas nejsou prvky „crossed“, ale „nested“. Např. žáci patří právě do jedné třídy, nepozorujeme je ve více třídách (c=class, S=student, I=item): ◦ G-studie: (s:c)×i ◦ D-studie pro žáka uvnitř třídy: (s:C)×I (C je relativní) ◦ D-studie pro žáka napříč třídami vč. efektu třídy: (s:C)×I (C je fixed) ◦ D-studie pro žáka napříč třídami po kontrole efektu třídy: (s:C)×I (C je absolutní) ◦ D-studie pro účely srovnání tříd: (S:c)×I (S je absolutní) Pokud byl design G-studie rozsáhlejší než design D-studie, může se stát, že se rozptyl universe skóru skládá z více rozptylových komponent: skryté (hidden) fasety. ◦ V příkladu výše zobecnění výkonu žáka uvnitř vs. napříč třídami. ◦ Doporučuji držet co nejkomplexnější design G-studie, případně alespoň stejný, jako je D-studie. ◦ Ale nedává smysl nevyužít v G-studii informace, které jsou k dispozici (proto co nejkomplexnější). Využití GT: pevné kovariáty Příklad: Mám velmi malý vzorek dat výkonového testu u malých dětí. ◦ Výkon výrazně roste v čase. ◦ Mohu spočítat reliabilitu pro celý vzorek dohromady – nadhodnocení systematickýmvlivem věku. ◦ Na odhad pro jednotlivé kohorty zvlášť (žádoucí!) nemám ale dost dat. Řešení: vložení věku jako pevného kovariátu (fixed effect) pro očištění random efektů. ◦ lme4 syntax: model <- "response ~ (1 | person) + (1 | item) + age + I(age^2)" Výsledkem je odhad rozptylu osob „po kontrole věku“ (a jeho kvadrátu). Odhad reliability za předpokladu, že je shodná pro všechny věkové kohorty. ◦ Že je shodný rozptyl výkonu osob i chybový rozptyl v každé kohortě stejný = = věkovékohorty jsou „paralelní“ (avšak nikoli striktně paralelní) skupiny osob Užitečné při vývoji testů a pilotních studiích s malým vzorkem. GT: závěrem Při zobecnění na více položek shodné výsledky s S-B vzorcem. Lze mít také více závislých proměnných (multivariate analysis of variance, MANOVA): ◦ Odhad reliability kompozitu, rozdílovýchskórů, profilu apod. ◦ Analogie k velmi zjednodušenému strukturnímu modelu. Výhodné při standardizaci testů, kde je přítomno více zdrojů chyb ◦ Např. examinátor-retest-položky. ◦ Minimum výhod při využití prostého odhadu test-retest reliability pomocí korelace celkovýchskórů, GT poskytne více informací. Nepříliš doceněná (člověk musí rozumět, aby mohl použít). Doporučuji: Brennan, R. L. (2001). Generalizability Theory. New York: Springer. ◦ Drobné texty viz studijní materiály. Srovnání GT a model-based/dimension free konceptu reliability Minulá přednáška o CTT: model-based vs. dimension free-reliabilita. ◦ Realismus: Co je měřeným rysem? Jak moc „paralelně“ jej dílčí indikátory měří? ◦ Relativní srovnání (ale absolutní lze implementovat). ◦ Zpravidla jen jeden zdroj chyby = položka (ale existují hierarchické a MTMM modely). GT: Operacionalismus. ◦ Náhodný výběr prvků z domény zajišťuje asymptotickou tau-ekvivalenci vybraných prvků. ◦ Zobecňujeme na celý prostor nebo jen na vybrané prvky? ◦ Analogie k hierarchické i celkové reliabilitě. ◦ Rozptyl určité fasety lze považovat za chyby nebo součástměření. Obojí je zcela odlišný pohled na měření. ◦ Oba přístupy ale kombinují multifastové IRT modely. Vnitrotřídní korelace: standardizovaná GT pro jednofasetový p×i design Shrout a Fleiss (nejběžnější) McGraw a Wong (občasně používané) GT design ICC(1,1) One-way random, single score ICC(1) i:p (jediná faseta plus error, Ne=1) Hodnotitelé se neopakují. ICC(2,1) Two-way random, single score ICC(A,1) p×i (absolutní, Ni = 1) Stejní hodnotitelé, vybraní náhodně. Tohle chcete ve většině případů. ICC(3,1) Two-way mixed, single score ICC(C,1) p×i (relativní, Ni = 1) Stejní hodnotitelé, nezobecňuji na všechny možné. ICC(1,k) One-way random, average score ICC(k) I:p (jediná faseta plus error, Ne=k) ICC(2,k) Two-way random, average score ICC(A,k) p×I (absolutní, Ni = k) ICC(3,k) Two-way mixed, average score ICC(C,k) p×I (relativní, Ni = k) ICC(3,k) = Cronbachovo α A=agreement (shoda hodnocení), C=consistency (konzistencepořadí), k=počet hodnotitelů/skupin. Ukazatel shody posuzovatelů. Reliabilita při hodnocení 1 posuzovatelem. Reliabilita celkového hodnocení, tj. průměru všech posuzovatelů.