Přednáška 6: Teorie zobecnitelnosti 23. 10. 2023 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler | cigler@fss.muni.cz CTT: Hodně chyb, hodně reliabilit... Mnoho způsobů odhadů reliability a druhů chyby v rámci CTT: ◦ stabilita v čase = test–retest: korelace, regrese, ICC... ◦ vnitřní konzistence: alfa, omega, split-half, GLB... ◦ ekvivalence = reliabilita paralelních forem: korelace, regrese, ICC... ◦ shoda posuzovatelů: Cohenovo/Fleissovo kappa, Krippendorfova alfa, ICC... ◦ To „mnoho“ znamená něco jiného než „mnoho“ vnitřních konzistencí na předchozí přednášce o CTT. ◦ Napříč různými kontexty se mohou lišit pravé skóry, fungování paralelních testů, jejich stabilita a podobně. ◦ V tomto ohledu více viz Ellis, J. L. (2021). A Test Can Have Multiple Reliabilities. Psychometrika, 86(4), 869–876. https://doi.org/10.1007/s11336-021-09800-2 Co ale s tím? Kterou „reliabilitu“ si vybrat? ◦ Pro různé účely? Teorie zobecnitelnosti Generalizability Theory (GT) Lee J. Cronbach (1916–2001) Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Teorie zobecnitelnosti Generalizability Theory (GT) Lee J. Cronbach (1916–2001) Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Cronbach, 1991, cit. dle Brenan (2001, s. 3) Klíčové publikace Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Theory of generalizability: A liberation of reliability theory. The British Journal of Statistical Psychology, 16(2), 137-163. https://doi.org/10.1111/j.2044-8317.1963.tb00206.x Cronbach, L.J., Gleser, G.C., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles. John Wiley. Shavelson, R.J., & Webb, N.M. (1991). Generalizability Theory: A Primer. Sage. Brennan, R. L. (2001). Generalizability Theory. Springer-Verlag. ◦ Tohle je nejvíce aktuální a komprehenzivní zdroj, který je v současnosti k dispozici. ◦ Konceptuálně recentní, nezohledňuje jen poslední vývoj v estimaci statistických modelů. Cronbachovo alfa Cronbachova alfa (1951) není tak docela Cronbachova: ◦ KR-20 (Kuder-Richardson, 1937); Rulonův vzorec (1939); Guttmanova korekce s λ3 (1945); Hoytův vzorec (1941). Cyril Hoyt (1941) – odhad reliability pomocí ANOVA: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎 𝑥 2 = 𝜎 𝑥 2 − 𝜎𝑒 2 𝜎 𝑥 2 = 𝑛 − 1 𝜎 𝑥 2 − 𝜎𝑒 2 𝑛 − 1 𝜎 𝑥 2 = 𝑀𝑆𝜏 𝑀𝑆 𝑥 = 𝑀𝑆 𝑥 − 𝑀𝑆 𝑒 𝑀𝑆 𝑥 ◦ 𝑀𝑆 𝑥 - mean-square, tj. průměr sumy čtverců, tj. nepodělený rozptyl (var 𝑥 = 𝑀𝑆 𝑥 𝑛−1 ). ANOVA umí „parcelovat“ pozorovaný rozptyl (ANalysis Of Variance). ◦ Typická ANOVA: jakou část pozorované variability (𝑀𝑆 𝑥) lze přičíst rozdílům mezi lidmi (between-subjects, 𝑀𝑆𝜏) a jaká je způsobena rozdílům uvnitř (within-subjects, 𝑀𝑆𝑒)? ◦ Resp. pomocí F-testu ověřujeme, zda je 𝑀𝑆𝜏 > 0. Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2(3), 151–160. https://doi.org/10.1007/BF02288391 Rulon, P. J. (1939). A simplified procedure for determining the reliability of a test by split-halves. Harvard Educational Review, 9, 99–103. Hoyt, C. (1941). Test reliability estimated by analysis of variance. Psychometrika, 6(3), 153–160. https://doi.org/10.1007/BF02289270 Guttman, L. (1945). A basis for analyzint test-retest reliability. Psychometrika, 10(4), 255–282. https://doi.org/10.1007/BF02288892 Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334. https://doi.org/10.1007/BF02310555 Hoytův postup Hoyt použil ANOVA k parcelování pozorované rozptylu odpovědí lidí na paralelní testy (položky). Postup výpočtu (přibližně, bez korekcí): ◦ 1. Pro každou osobu průměr ത𝑋 𝑝 napříč všemi položkami. ◦ 2. Rozptyl průměrů osob: var ത𝑋 𝑝 = 𝜎𝑥 2 . ◦ 3. Rozptyl odchylek jednotlivých pozorování 𝑥𝑖𝑝 osob 𝑝 na pol. 𝑖 od jejich průměrů ത𝑋 𝑝 jako: 𝜎𝑟𝑒𝑠 2 = σ 𝑝=1 𝑁 σ𝑖=1 𝐼 𝑥𝑖𝑝 − ത𝑋 𝑝 2 𝑁𝐼 ◦ 4. Standardní chyba odhadu průměru z 𝐼 položek jako 𝜎𝑒 = 𝜎 𝑟𝑒𝑠 2 𝐼 ~ 𝑆𝐷 𝑁 ◦ Výpočet „přes všechny osoby“, obchází tak potíže s opakovaným měřením jedné osoby – chyba je stejná pro všechny (viz minulá přednáška). ◦ 5. Reliabilita jako 𝑟 𝑥𝑥′ = 1 − 𝜎 𝑒 2 𝜎 𝑥 2. ◦ 6. Standardní chyba měření: Buď z reliability jako 𝑆𝐸 = 𝜎𝑥 1 − 𝑟 𝑥𝑥′ nebo přímo jako 𝑆𝐸 = 𝜎𝑒 = 𝜎 𝑟𝑒𝑠 2 𝐼 . Výsledek je ekvivalentní Cronbachovu alfa, asymptomaticky se rovná průměru všech možných splithalf reliabilit (Cronbach, 1951). ◦ Kde 𝑁𝐼 je počet osob (N) krát počet položek (I; celkový počet pozorování = kusů informace). Hoytův postup Připomenutí: postup je ekvivalentní koeficientu alfa. Tau-ekvivalence (všechna pozorování mají stejnou váhu, E σ 𝑖=1 𝐼 E 𝑋 𝑝𝑖 𝐼 = 𝜏 𝑝). ◦ Paralelnost položek (shodné reziduální rozptyly) lze obejít skrze „průměrnou chybu“. Neexistence jiného zdroje rozptylu, než: ◦ Variabilita ve schopnostech lidí (𝜎 𝑝 2). ◦ Variabilita v obtížnostech položek (𝜎 𝑝𝑖 2 ). ◦ Variabilita v tom, jak různí lidé odpověděli na různé položky (𝜎 𝑝𝑖,𝑒 2 ) – chyba. Co když je ale zdrojů více? ◦ Situace a změna rysu v čase, okolnosti testování, hodnotitel, dílčí oblast znalostí... Teorie zobecnitelnosti (Generalizability theory) Řešením CTT problému „mnoho chyb, mnoho reliabilit“ je teorie zobecnitelnosti. ◦ Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Theory of generalizability: A liberation of reliability theory. The British Journal of Statistical Psychology, 16, 137-163. ◦ Cronbach, L.J., Gleser, G.C., Nanda, H., & Rajaratnam, N. (1972). The Dependability of Behavioral Measurements. New York: Wiley. CTT: 𝑋 = 𝑇 + 𝑒 GT: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + … + 𝑒 𝑘 ◦ Kde např. e1 je specifický skór v daném čase (test-retest), e2 rozdílnost posuzovatelů (shoda posuzovatelů), e3 rozdílnost položek (vlastní „nepřesnost metody“, vnitřní konzistence) atd. ◦ Pro různé účely může T zahrnovat i některé chyby (např. nás zajímá výkon v daném čase a nikoliv stabilita napříč časem, přestože víme, že výkon není stabilní). Protože ale např. i ten stejný hodnotitel může hodnotit různě v různých situacích, je vhodné zdůraznit interakce jednotlivých komponent: ◦ 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + 𝒆 𝟏𝟐 + 𝒆 𝟏𝟑 + 𝒆 𝟐𝟑 + 𝒆 𝟏𝟐𝟑 … Jinými slovy... CTT: Pouze dva zdroje variability ◦ systematický = pravý skór ◦ chybový = chyba měření ◦ irelevantní = obtížnost položek GT: Neomezeně zdrojů variability ◦ všechny jsou náhodné ve smyslu výběru z populace („prostoru“) ◦ některé mohou být systematické, jiné chybové, další irelevantní. Heitman et al. (2009) Jinými slovy... „The theory describes the dependability (reliability) of generalizations made from a person’s observed score on a test to the score he or she would obtain in the broad universe of admissible observations—her “universe score” (true score in classical test theory). Hence the name, Generalizability Theory.“ (Shavelson & Webb, 2006) Universe score – problém s překladem. Proto anketa na FB: ◦ 42 (J. Brojáč, osobní komunikace 30. 9. 2019) ◦ globální skór, ideální skór (V. Pišl, osobní komunikace 30. 9. 2019) ◦ vesmírnej skór (A. J. Kšiňan, osobní komunikace 30. 9. 2019), skór veškera (J. Štipl, osobní komunikace 30. 9. 2019), skór veškerenstva (H. Cígler & R. Modré, osobní komunikace 30. 9. 2019) ◦ všeobecný skór (M. Čadek, osobní komunikace 30. 9. 2019) ◦ skór univerza, skór v univerzu, obecný skór (A. Ťápal, osobní komunikace 30. 9. 2019) Princip a účel GT GT primárně nepracuje se součtovým skóre jako CTT, ale s průměrným skóre. ◦ „Průměrná odpověď“ napříč „prostorem zobecnění“ (všemi možnými respondenty, položkami, situacemi...). Universe of generalization. ◦ Reliabilita průměrného a součtového skóre je ale stejná (stačí vynásobit počtem pozorování). ◦ Tato průměrná odpověď pro konkrétního respondenta se označuje jako universe score. ◦ Jednotlivé zdroje rozptylu (kromě rozdílů mezi respondenty) se označují jako fasety. Dvě klíčové části GT: ◦ G-studie: Jak velké části rozptylu odpovědi na jednu položku v jedné situaci jedním respondentem (atd.) jsou „vysvětleny“ jednotlivými fasetami a rozdíly mezi respondenty samotnými? ◦ D-studie: Jaká bude chyba měření při využití „opakovaného měření“ v konkrétních fasetách? ◦ Např. při měření 10 položkami při 3 administracích, hodnocených 2 hodnotiteli? ◦ Využívá výsledků G-studie. Princip a účel GT Podobné předpoklady jako CTT, jde o její rozšíření. ◦ Náhodný výběr prvků dané fasety z nekonečně velkého doménového prostoru. ◦ Existují ale i úpravy pro „finite universe“. ◦ Náhodný výběr lze obejít „zafixováním“ určité fasety – „fixed effects“ namísto „random effects“. Další běžné předpoklady CTT. ◦ Jednodimenzionalita, resp. lokální nezávislost (ale existují multivariate úpravy), normální rozdělení (ale...), odpovědi na intervalové škále (ale robustnost stejně jako u CTT) atd. ◦ Tau-ekvivalence a přibližně stejný reziduální rozptyl, což je zajištěno předpokladem náhodného výběru. Relativně vysoká robustnost zvláště při větším počtu položek. ◦ Vícedimenzionalita možná při dodržení tau-ekvivalence faset na univerzu; analogie k hierarchické ρSOF (Cho, 2016) Některé postupy GT „zobecněly“ v běžných CTT postupech. ◦ Hoyt (1941), vnitrotřídní korelace (ICC, intra-class correlation; Shrout & Fleiss, 1979). Princip a účel GT Stejně jako CTT, i GT vychází z operacionalismu. ◦ Měřeným atributem je universe score, nikoli psychický rys jako takový. ◦ Měření je tedy definováno skrze měřicí nástroj; v tomto případě spíše skrze způsob tvorby položek a popis „univerza položek“, nikoliv konkrétně vybrané položky v daném testu. Jde tedy společně s CTT o „slabou teorii měření“, na rozdíl třeba od IRT. ◦ „Weak true-score theory“. Logika GT je nicméně využívána i v jiných teoriích měření, kde je rozptyl měřeného rysu „parcelován“ na dílčí složky. ◦ Multifasetové Raschovy modely. ◦ Hierarchické (multilevel) IRT modely a hierarchická (multilevel) faktorová analýza. ◦ Explanační IRT modely, LLTM a další. Teorie zobecnitelnosti Dva klíčové postupy/kroky/součásti GT: 1. Studie zobecnitelnosti (G-studie; generalizability study) 2. Rozhodovací studie (D-studie; decision study) G-studie Studie zobecnitelnosti Generalizability study Dekompozice rozptylu Odhad rozptylových komponent ANOVA Smíšený lineární model (linear mixed model, LMM) https://community.jmp.com/t5/Discussions/How-to-implement-variance-decomposition/td-p/272070 G-studie G-studie = generalizability study (studie zobecnitelnosti) ◦ Odhaduje chybový rozptyl pojící se s jednotlivými fasetami a jejich interakcemi, resp. chybu pojící se s jednou položkou/jedním měřením/apod. (a interakcemi). ◦ Tedy jakou část rozptylu jednoho pozorování (interakce respondenta × položky × situace × hodnotitele × ...) tvoří jednotlivé specifické části rozptylu související s respondenty/položkami/situacemi/... Zobecňuje z měření na prostor (universum). ◦ Na základě měření odhaduje rozptylové komponenty v prostoru. ◦ Z pozorovaných rozptylových komponent ve vzorku usuzuje na komponenty v prostoru (populaci všech přípustných pozorování). ◦ Tohle je ta výpočetně náročnější část GT. G-studie: Rozptylové komponenty KLASICKÁ TESTOVÁ TEORIE Složení pravého skóru*: 𝑋 = 𝑇 + 𝑒 Rozptylové komponenty: 𝜎 𝑥 2 = 𝜎𝜏 2 + 𝜎𝑒 2 Reliabilita: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 ◦ pravý skór a chyba jsou ortogonální, proto chybí jejich kovariance („+2𝜎𝜏𝑒 2 “) TEORIE ZOBECNITELNOSTI Složení obecného skóru – např. 2fasetový design*: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒 𝜏1 + 𝑒 𝜏2 + 𝑒12 + 𝑒 𝜏12,𝑒 Rozptylové komponenty: 𝜎 𝑥 2 = 𝜎𝜏 2 + 𝜎1 2 + 𝜎2 2 + 𝜎𝜏1 2 + 𝜎𝜏2 2 + 𝜎12 2 + 𝜎𝜏12,𝑒 2 Reliabilita: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎1 2 + 𝜎2 2 + 𝜎𝜏1 2 + 𝜎𝜏2 2 + 𝜎12 2 + 𝜎𝜏12,𝑒 2 ◦ Všechny rozptylové komponenty jsou ortogonální (protože jsou zahrnuty všechny), proto též bez kovariance. ◦ Z toho důvodu se zahrnují do G-studie i nesignifikantní efekty. ◦ Obecný vzorec; některé komponenty v některých scénářích mohou chybět. * Subskripty příslušející osobě vynechány (vyjma interakcí). G-studie: příklad Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf Příklad: 2fasetový design p × i × o. ◦ N respondentů p (persons) ◦ Osoby jsou atributem, proto se nepočítají do počtu faset. ◦ 3 položky i (items) ◦ 2 administrace/situace o (occasions) Pozorovaný skór X a obecný skór T: ◦ 𝑋 𝑝 = mean 𝑋 𝑝𝑖𝑜 ; E 𝑋 𝑝 = E 𝑋 𝑝𝑖𝑜 = 𝑇𝑝 Pozorovaný skór je součtem všech komponent: 𝑋 𝑝𝑖𝑜 = 𝑇𝑝 + 𝑒𝑖 + 𝑒 𝑜 + 𝑒 𝑝×𝑖 + 𝑒 𝑝×𝑜 + 𝑒𝑖×𝑜 + 𝑒 𝑝×𝑖×𝑜 Celkový rozptyl pozorovaného skóre (prvků datové matice): 𝜎 𝑋 𝑝𝑖𝑜 2 = 𝜎 𝑝 2 + 𝜎𝑖 2 + 𝜎𝑜 2 + 𝜎 𝑝𝑖 2 + 𝜎 𝑝𝑜 2 + 𝜎𝑖𝑜 2 + 𝜎 𝑝𝑖𝑜,𝑒 2 Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf G-studie: Odhad rozptylových komponent Historicky GT využívala ANOVA. ◦ Fasety – „faktory“ v tradiční ANOVA terminologii. ◦ Proměnné jsou uvažovány jako random (např. náhodný výběr času) nebo fixed effect (např. test stabilně složený ze stejných položek). ◦ Random modely jsou častější. ◦ LS estimátor (least-squares). ◦ Mnoho statistických předpokladů. Aktuálně se zpravidla používá LMM (linear mixed model). ◦ Smíšený lineární model ◦ Výhody při odhadu. ◦ Unbalanced designy, chybějící data apod. ◦ Menší předpoklady, vyšší flexibilita. ◦ Výsledek by se neměl lišit (při dodržení předpokladů), reálně jsou odlišnosti malé. ◦ ML estimátor (maximum-likelihood). GT: SW pro odhad G-studie Tradiční SW: ◦ GENOVA, mGENOVA (staré DOSovské aplikace). SPSS (lze ručně upravit syntax pro mixed-modely). ◦ Mushquash, C. and O’Connor, B.P. (2006). SPSS and SAS programs for generalizability theory analyses. Behavior Research Methods, 38(3), 542–547. doi: 10.3758/bf03192810 ◦ A tedy vlastně jakýkoli SW s modulem pro lineární smíšené (mixed) modely (JAMOVI, JASP)... R, zejména balíček lme4 (mixed modely) a případně gtheory (nástavba lme4 pro GT). ◦ Případně pak hemp dostupný na githubu (doplněk ke knize Desjardins & Bulut, 2018). Přehled dostupných programů (poněkud outdated): ◦ Taşdelen Teker, G., Güler, N. and Kaya Uyanık, G. (2015). Comparing the effectiveness of SPSS and EduG using different designs for Generalizability theory. Educational Sciences: Theory & Practice, 15(3). doi: 10.12738/estp.2015.3.2278 ◦ Yelboga, A. (2015). Estimation of Generalizability coefficient: An application with different programs. Archives of Current Research International, 2(1), 46–53. doi: 10.9734/acri/2015/17409 V předchozím případě by syntax pro R byl: ◦ Předpokladem je převedení na tzv. dlouhý formát, kde jeden řádek = 1 odpověď, a další proměnné jsou person (1-N), item (1-3), ocassion (1-2) require(lme4) require(gtheory) model <- "response ~ (1 | person) + (1 | item) + (1 | occasion) + (1 | person:item) + (1 | person:occasion) + (1 | item:occasion)" Pozn.: poslední chybovou fasetou je (1 | person:item:occasion) – ta reprezentuje „zbytek“ a je proto chybou v klasickém slova smyslu (vše, co není vysvětleno ničím předchozím), proto ji není nutné do modelu zadávat, je tam implicitně). gstudy <- gstudy(data = data, formula = model) print(gstudy) Dlouhá data: GT: Způsob odhadu G-studie v R odp. P I O 4 1 1 1 2 1 2 1 5 1 3 1 4 1 1 2 odp. P I O 3 1 2 2 4 1 3 2 3 2 1 1 1 2 2 1 Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf D-studie Rozhodovací studie Decision study Koeficient dependability a zobecnitelnosti Absolutní a relativní D-studie D-studie Rozhodovací (Decision) studie slouží k odhadu chyby měření pro konkrétní design s využitím informací z G-studie. Definuje tzv. „prostor zobecnění“ (počtem pozorování, počtem položek atp.), pro který bude naše měření platit. ◦ V rámci tohoto prostoru má každý respondent tzv. U-skór (universe score). Odhad chyby odhadu universe skóru pro zvolený hypotetický design – např. p×I×O. ◦ Velké písmeno v designu D-studie symbolizuje, že se zajímáme o průměrné skóry, nikoli rozptyly. D-studie: Obecný postup 1. Volba jednotky/subjektu měření (nemusí být respondent). 2. Volba designu, resp. prostoru/prostorů zobecnění. 3. Identifikace, které fasety (a interakce) G-studie jsou chybové složky. 4. Volba počtu prvků faset (nemusí se shodovat s G-studií). 5. Výpočet chyby měření. 6. Výpočet koeficientu reliability. D-studie: Dva typy zobecnění Relativní (norm-referenced) – zobecnění v rámci vybraných prvků fasety. ◦ Všechny fasety jsou zafixovány napříč měřením (např. test složený z pevného setu položek). ◦ Díky fixaci se jejich prvky stanou konstantou a rozdílná „obtížnost“ není chybou. ◦ Nezobecňuje se na celý fasetový prostor, ale právě na tyto prvky dané fasety. ◦ Reliabilita odhadována pomocí koeficientu zobecnitelnosti. ◦ Přímo srovnatelný s různými druhy CTT reliability. Absolutní (kriteriální) – zobecnění na celou fasetu. ◦ Tento odhad nese více nejistoty (záleží na náhodně „vybrané“ obtížnosti prvků fasety). ◦ Reliabilita odhadována pomocí koeficientu spolehlivosti (dependability coef.). ◦ Lze uvažovat pravděpodobnost překročení absolutního kritéria. Spíše než otázka celého designu otázka dílčích faset (smíšený design). D-studie: Dva typy zobecnění (příklady) RELATIVNÍ D-STUDIE Dotazník self-esteemu (SE) ◦ Nezajímá mě, jak by respondent skóroval na případných jiných položkách, které měří SE. ◦ Posvátná kráva?  Hodnocení písemného testu v psychometrice. ◦ Všechny testy hodnotí Hynek. Zanedbáváme, jak by bodovali jiní hodnotitelé. Přijímací zkouška do NMGR psychologie. ◦ Chceme vybrat 30 nejlepších uchazečů, nezáleží na tom, jak obtížné položky jsou letos v testu. ABSOLUTNÍ D-STUDIE „Super-komplexní dotazník depresivity“. ◦ Náhodný výběr 10 symptomů ze všech identifikovaných symptomů deprese. ◦ Záleží, zda jsme vybrali časté či řídké symptomy. Hodnocení seminární práce v psychometrice. ◦ Do hodnocení jsou zapojeni tři lidé; protože se liší přísností, záleží, kdo je komu „přidělen“. Přijímací zkouška do NMGR psychologie. ◦ Přijatý musí mít nejméně 36/60 bodů. ◦ Byly zařazeny jednoduché či těžké položky? D-studie: Odhad chyby měření Celková chyba odhadu obecného skóru = suma čtverců chyb odhadu komponent. ◦ Chyba odhadu dílčí komponenty = standardní chyba průměru1. ◦ Tedy rozptylová komponenta z G-studie dělená počtem pozorovaných prvků dané fasety: 𝜎𝑒 2 = 𝜎𝑒1 2 𝑛1 + 𝜎𝑒2 2 𝑛2 + 𝜎𝑒3 2 𝑛3 + ⋯ + 𝜎𝑒𝑘 2 𝑛 𝑘 Reliabilita se potom spočítá dle obecného vzorce pro vysvětlený rozptyl: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 ◦ 𝜎𝜏 2 - rozptyl jednotek měření, tedy ideálních skórů ◦ 𝜎𝑒 2 - chybový rozptyl, tedy součet všech chybových komponent 1 standardní chyba průměru 𝑆𝐸 = 𝑆𝐷 𝑁 → 𝑆𝐸2 = 𝑆𝐷2 𝑁 ; SD – směrodatná odchylka; N – velikost vzorku/počet pozorování. Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf Relativní D-studie: Příklad Jaká bude chyba průměrného skóre ze 2 administrací 10položkového testu? Relativní chybový rozptyl 𝜎𝛿 2 : 𝜎𝛿 2 = 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .810 1 × 10 + .230 1 × 2 + 1.413 1 × 10 × 2 = .267 Podíl chybového rozptylu (reliabilita): koeficient zobecnitelnosti: 𝐺 = 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2 + 𝜎𝛿 2 = 1,108 1,108 + 0,267 = 𝟎, 𝟖𝟎𝟔 Koeficient zobecnitelnosti je přímo srovnatelný s reliabilitou v CTT: ◦ Vnitřní konzistence 1 měření v 1 okamžik: 𝜎 𝛿 2 = 𝜎 𝑝𝑖 2 𝑁 𝑝×𝑁 𝑖 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁 𝑝×𝑁 𝑖×𝑁 𝑜 = .810 1×10 + 1.413 1×10×1 = .222  𝐺 = 1,108 1,108+0,222 = 0,833 (paradoxně větší! Proč?) Absolutní D-studie: Příklad Absolutní chyba průměrného skóre 10 položek a 2 měření? ◦ Zobecňuji napříč všemi přípustnými položkami i časem (admissible observation). Absolutní chybový rozptyl 𝜎∆ 2 : 𝜎∆ 2 = 𝜎𝑖 2 𝑁𝑖 + 𝜎 𝑜 2 𝑁𝑜 + 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = = .102 10 + .030 2 + .810 1 × 10 + .230 1 × 2 + .001 10 × 2 + 1.413 1 × 10 × 2 = .292 Absolutní D-studie: Příklad Absolutní chyba průměrného skóre 10 položek a 2 měření? ◦ Zobecňuji napříč všemi přípustnými položkami i časem (admissible observation). Absolutní chybový rozptyl 𝜎∆ 2 : 𝜎∆ 2 = 𝜎𝑖 2 𝑁𝑖 + 𝜎 𝑜 2 𝑁𝑜 + 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = = .102 10 + .030 2 + .810 1 × 10 + .230 1 × 2 + .001 10 × 2 + 1.413 1 × 10 × 2 = .292 Podíl chybového rozptylu: koeficient spolehlivosti Φ (dependability): Φ = 𝜎 𝑝 2 𝜎 𝑝 2 + 𝜎∆ 2 = 1,108 1,108 + 0,292 = 0,791 Absolutní D-studie: Příklad V některých situacích můžeme pracovat s předem stanoveným absolutním kritériem 𝝀. ◦ Například klinické cut-off skóre, potřebný počet bodů k přijetí apod. Koeficient spolehlivosti klasifikace: Φ 𝜆 = 𝜎 𝑝 2 + ത𝑋 − 𝜆 2 − 𝜎 ҧ𝑥 2 𝜎 𝑝 2 + ത𝑋 − 𝜆 2 − 𝜎 ҧ𝑥 2 + 𝜎∆ 2 ◦ ത𝑋 – pozorovaný průměr ◦ 𝜎 ҧ𝑥 2 – chyba odhadu průměru (spočítaná pomocí absolutní D-studie). ◦ Obdobný odhad jako 𝜎∆ 2 , jen 𝑁𝑝 ≠ 1 a navíc komponenta 𝜎 𝑝 2 𝑁 𝑝 . ◦ V případě známého populačního průměru 𝜇 jej dosadíme namísto ത𝑋 a 𝜎 ҧ𝑥 2 ve vzorci nefiguruje. Φ 𝜆 je vyšší, čím dále je kritérium 𝜆 od průměru osob 𝜇. Reliabilita klasifikace. Smíšená D-studie: Příklad Jaká bude test-retest reliabilita 1 měření? ◦ 10 položek: relativní faseta (zobecňujeme na těchto 10 položek, ne na všechny možné). ◦ 1 situace: absolutní faseta (zobecňujeme na všechna možná pozorování napříč časem). Chybový rozptyl: 𝜎 𝛿 2 = 𝜎 𝑜 2 𝑁𝑜 + 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .030 1 + .810 1 × 10 + .230 1 × 1 + .001 10 × 1 + 1.413 1 × 10 × 1 = .482 Koeficient zobecnitelnosti: 𝐺 = 1,108 1,108+0,482 = 0,697 ◦ Poznámka: postup přímo pracuje s (průměrnou) lokální závislostí položek napříč časem (souvisí s komponentou 𝜎 𝑝𝑖 2 ). D-studie: absolutní Uvažuje veškeré fasety jako náhodné, přičemž vliv těchto faset se může lišit napříč osobami. Případně nás zajímá skór napříč všemi potenciálními prvky všech faset (typicky u kriteriálních výkonových testů): ◦ Relativní: 70 % správně z daných 10 položek. ◦ Absolutní: 70 % správně ze všech možných položek. Zobecňuje tedy na universe score napříč celým (nejvyšším) prostorem zobecnění: „universe of admissible observartions“. ◦ Náhodný výběr položek, časů, hodnotitelů ze všech možných atd. ◦ Tento universe score bude mít tedy vyšší chybu než universe score ve kterémkoli více omezeném prostoru. Srovnání designů Relativní D-studie ze 2 měření p×(I=10)×(O=2): G = 0,806 ◦ I, O relativní Relativní D-studie z 1 měření p×(I=10): G = 0,833 ◦ I relativní, O vynecháno ◦ Šlo by o shodný výsledek s Cronbachovým alfa z jednoho měření. Absolutní D-studie ze 2 měření p×(I=10)×(O=2): Φ = 0,791 ◦ I, O absolutní Smíšená D-studie, test-retest z 1 měření p×(I=10)×(O=1): Φ = 0,697 ◦ I relativní, O absolutní; asymptoticky shodné s test-retest korelací. Využití GT Odhad reliability/chyby měření. Vývoj testu: jak se změní reliabilita, pokud použiju jiný počet prvků z domény? ◦ S minimální finanční/časovou náročností maximalizovat reliabilitu testu. ◦ Obdoba SB věšteckého vzorce, ale pro více zdrojů chyb než „počet testů“. GT je velmi cenná v případě, že máme skutečně paralelní položky. ◦ Např. tzv. škrtací testy pro měření reakčního času, kde jsou dílčí položky řazené do bloků (a třeba testované opakovaně). Využití GT: Optimální počet prvků faset Seminární práce. Variuji: ◦ počtem hodnotitelů; ◦ počtem hodnocených prací. Pokud např. chci investovat na každého studenta max. čtyři hodnocené práce, co je nejvýhodnější? ◦ A) 4 pokusy, 1 hodnotitel ◦ B) 2 pokusy, 2 hodnotitelé ◦ C) 3 pokusy, 1 hodnotitel ◦ D) 1 pokus, 4 hodnotitelé Převzato z Brennan (2001) – jde o jiná data než výše. Využití GT: Multilevel design Prvkem měření nemusí být respondent, ale např. školní třída (pak je faseta „žáci“ chybou). Občas nejsou prvky „crossed“, ale „nested“. Např. žáci patří právě do jedné třídy, nepozorujeme je ve více třídách (c=class, S=student, I=item): ◦ G-studie: (s:c)×i ◦ D-studie pro žáka uvnitř třídy: (s:C)×I (C je relativní) ◦ D-studie pro žáka napříč třídami: (s:C)×I (C je absolutní) ◦ D-studie pro účely srovnání tříd: (S:c)×I (S je absolutní) Pokud byl design G-studie rozsáhlejší než design D-studie, může se stát, že se rozptyl universe skóru skládá z více rozptylových komponent: skryté (hidden) fasety. ◦ V příkladu výše zobecnění výkonu žáka uvnitř vs. napříč třídami. ◦ Doporučuji držet co nejkomplexnější design G-studie, případně alespoň stejný, jako je D-studie. ◦ Ale nedává smysl nevyužít v G-studii informace, které jsou k dispozici (proto co nejkomplexnější). Využití GT: pevné kovariáty Příklad: Mám velmi malý vzorek dat výkonového testu u malých dětí. ◦ Výkon výrazně roste v čase. ◦ Mohu spočítat reliabilitu pro celý vzorek dohromady – nadhodnocení systematickým vlivem věku. ◦ Na odhad pro jednotlivé kohorty zvlášť (žádoucí!) nemám ale dost dat. Řešení: vložení věku jako pevného kovariátu (fixed effect). ◦ lme4 syntax: model <- "response ~ (1 | person) + (1 | item) + age + I(age^2)" Výsledkem je odhad rozptylu osob „po kontrole věku“ (a jeho kvadrátu). Odhad reliability za předpokladu, že je shodná pro všechny věkové kohorty. ◦ Že je shodný rozptyl výkonu osob i chybový rozptyl v každé kohortě stejný = = věkové kohorty jsou „paralelní“ (avšak nikoli striktně paralelní) skupiny osob Užitečné při vývoji testů a pilotních studiích s malým vzorkem. GT: závěrem Při zobecnění na více položek shodné výsledky s S-B vzorcem. Lze mít také více závislých proměnných (multivariate analysis of variance, MANOVA): ◦ Odhad reliability kompozitu, rozdílových skórů, profilu apod. ◦ Analogie k velmi zjednodušenému strukturnímu modelu. Výhodné při standardizaci testů, kde je přítomno více zdrojů chyb ◦ Např. examinátor-retest-položky. ◦ Minimum výhod při využití prostého odhadu test-retest reliability pomocí korelace celkových skórů, GT poskytne více informací. Nepříliš doceněná (člověk musí rozumět, aby mohl použít). Doporučuji: Brennan, R. L. (2001). Generalizability Theory. New York: Springer. ◦ Drobné texty viz studijní materiály. Srovnání GT a model-based/dimension free konceptu reliability Minulá přednáška o CTT: model-based vs. dimension free-reliabilita. ◦ Realismus: Co je měřeným rysem? Jak moc „paralelně“ jej dílčí indikátory měří? ◦ Relativní srovnání (ale absolutní lze implementovat). ◦ Zpravidla jen jeden zdroj chyby = položka (ale existují hierarchické a MTMM modely). GT: Operacionalismus. ◦ Náhodný výběr prvků z domény zajišťuje asymptotickou tau-ekvivalenci vybraných prvků. ◦ Zobecňujeme na celý prostor nebo jen na vybrané prvky? ◦ Analogie k hierarchické i celkové reliabilitě. ◦ Rozptyl určité fasety lze považovat za chyby nebo součást měření. Obojí je zcela odlišný pohled na měření. ◦ Oba přístupy ale kombinují multifastové IRT modely. Vnitrotřídní korelace: standardizovaná GT pro jednofasetový p×i design Shrout a Fleiss (nejběžnější) McGraw a Wong (občasně používané) GT design ICC(1,1) One-way random, single score ICC(1) p (jediná faseta plus error, Ne=1) Hodnotitelé se neopakují. ICC(2,1) Two-way random, single score ICC(A,1) p×I (absolutní, Ni = 1) Stejní hodnotitelé, vybraní náhodně. Tohle chcete ve většině případů. ICC(3,1) Two-way mixed, single score ICC(C,1) p×I (relativní, Ni = 1) Stejní hodnotitelé, nezobecňuji na všechny možné. ICC(1,k) One-way random, average score ICC(k) p (jediná faseta plus error, Ne=k) ICC(2,k) Two-way random, average score ICC(A,k) p×I (absolutní, Ni = k) ICC(3,k) Two-way mixed, average score ICC(C,k) p×I (relativní, Ni = k) ICC(3,k) = Cronbachovo α A=agreement (shoda hodnocení), C=consistency (konzistence pořadí), k=počet hodnotitelů/skupin. Ukazatel shody posuzovatelů. Reliabilita při hodnocení 1 posuzovatelem. Reliabilita celkového hodnocení, tj. průměru všech posuzovatelů.