Přednáška 3: Teorie zobecnitelnosti 31. 9. 2019 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler | hynek.cigler@mail.muni.cz CTT: Hodně chyb, hodně reliabilit... Mnoho způsobů odhadů reliability a druhů chyby v rámci CTT: ◦ stabilita v čase = test-retest: korelace, regrese, ICC... ◦ vnitřní konzistence: alfa, omega, split-half, GLB... ◦ ekvivalence = reliabilita paralelních forem: korelace, regrese, ICC... ◦ shoda posuzovatelů: Cohenovo/Fleissovo kappa, Krippendorfova alfa, ICC... Co ale s tím? Kterou „reliabilitu“ si vybrat? ◦ Pro různé účely? Teorie zobecnitelnosti Generalizability Theory (GT) Lee Cronbach (1916–2001) Cronbach, 1991, cit. dle Brenan (2001, s. 3) Teorie zobecnitelnosti (Generalizability theory) Řešením CTT problému „mnoho chyb, mnoho reliabilit“ je teorie zobecnitelnosti. ◦ Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Theory of generalizability: A liberation of reliability theory. The British Journal of Statistical Psychology, 16, 137-163. ◦ Cronbach, L.J., Gleser, G.C., Nanda, H., & Rajaratnam, N. (1972). The Dependability of Behavioral Measurements. New York: Wiley. CTT: 𝑋 = 𝑇 + 𝑒 GT: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + … + 𝑒 𝑘 ◦ Kde např. e1 je specifický skór v daném čase (test-retest), e2 rozdílnost posuzovatelů (shoda posuzovatelů), e3 rozdílnost položek (vlastní „nepřesnost metody“, vnitřní konzistence) atd. ◦ Pro různé účely může T zahrnovat i některé chyby (např. nás zajímá výkon v daném čase a nikoliv stabilita napříč časem, přestože víme, že výkon není stabilní). Protože ale např. i ten stejný hodnotitel může hodnotit různě v různých situacích, ve vzorci výše tedy chybí interakce: ◦ 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + 𝑒12 + 𝑒13 + 𝑒23 + 𝑒123 … Jinými slovy... CTT: Pouze dva zdroje variability ◦ systematický = pravý skór ◦ náhodný = chyba měření GT: Neomezeně zdrojů variability ◦ všechny jsou náhodné ve smyslu výběru z populace ◦ některé mohou být systematické napříč pozorováními ◦ Pravý skór člověka napříč položkami. ◦ Přísnost hodnotitele napříč osobami. Jinými slovy... „The theory describes the dependability (reliability) of generalizations made from a person’s observed score on a test to the score he or she would obtain in the broad universe of admissible observations—her “universe score” (true score in classical test theory). Hence the name, Generalizability Theory.“ (Shavelson & Webb, 2006) Universe score – problém s překladem. Proto malá anketa na FB: ◦ 42 (J. Brojáč, osobní komunikace 30. 9. 2019) ◦ globální skór, ideální skór (V. Pišl, osobní komunikace 30. 9. 2019) ◦ vesmírnej skór (A. J. Kšiňan, osobní komunikace 30. 9. 2019), skór veškera (J. Štipl, osobní komunikace 30. 9. 2019), skór veškerenstva (H. Cígler & R. Modré, osobní komunikace 30. 9. 2019) ◦ všeobecný skór (M. Čadek, osobní komunikace 30. 9. 2019) ◦ skór univerza, skór v univerzu, globální skór (A. Ťápal, osobní komunikace 30. 9. 2019) Princip a účel GT GT zpravidla nepracuje se součtovým skóre, ale s průměrným skóre. ◦ „Průměrná odpověď“ na položku napříč „prostorem“ všech možných respondentů, položek, situací, hodnotitelů... ◦ Tato průměrná odpověď pro konkrétního respondenta se označuje jako universe score (analogie pravého skóre v CTT). ◦ Jednotlivé zdroje rozptylu (kromě rozdílů mezi respondenty) se označují jako fasety. Dvě klíčové části GT: ◦ G-studie: Jak velká část rozptylu odpovědi na jednu položku v jedné situaci jedním respondentem (atd.) je „vysvětlena“ jednotlivými fasetami a rozdíly mezi respondenty samotnými? ◦ D-studie: Jaká bude chyba měření při využití „opakovaného měření“ v konkrétních fasetách – např. měření 10 položkami při 3 administracích? ◦ Využívá výsledků G-studie. Princip a účel GT Podobné předpoklady jako CTT, jde o její rozšíření. ◦ Zpravidla (nikoliv nutně) předpoklad náhodného výběru prvků dané fasety z nekonečně velkého doménového prostoru. ◦ Existují ale i úpravy pro „finite universe“. Další běžné předpoklady CTT. ◦ Jednodimenzionalita (ale existují multivariate úpravy), normální rozdělení (ale...), odpovědi na intervalové škále (ale jistá robustnost proti ordinálním položkám) atd. ◦ Tau-ekvivalence, resp. paralelnost položek (konkrétně stejný reziduální rozptyl, ale relativně vysoká robustnost zvláště při větším počtu položek. Některé postupy GT „zobecněly“ v běžných CTT postupech. ◦ Reliabilita podle Hoyta je zjednodušeným předchůdcem GT. ◦ Intraclass korelace je „standardizovaným“ použitím GT. Princip a účel GT Stejně jako CTT, i GT vychází z operacionalismu. ◦ Měřeným atributem je universe score, nikoli psychický rys jako takový. ◦ Měření je tedy definováno skrze měřicí nástroj; v tomto případě spíše skrze způsob tvorby položek a popis „univerza položek“, nikoliv konkrétně vybrané položky v daném testu. Jde tedy společně s CTT o „slabou teorii měření“, na rozdíl třeba od IRT. ◦ Příliš mnoho nesplnitelných předpokladů. Logika GT je nicméně využívána i v jiných teoriích měření, kde je rozptyl měřeného rysu „parcelován“ na dílčí složky. ◦ Multifasetové Raschovy modely. ◦ Hierarchické (multilevel) IRT modely a hierarchická (multilevel) faktorová analýza. ◦ Explanační IRT modely (zde je parcelována obtížnost/diskriminace položek). G-studie G-studie = generalizability study (studie zobecnitelnosti) ◦ Odhaduje chybový rozptyl pojící se s jednotlivými faktory a jejich interakcemi, resp. chybu pojící se s jednou položkou/jedním měřením/apod. (a jejich interakcemi). ◦ Jinými slovy – jakou část rozptylu jednoho pozorování (interakce respondenta×položky×situace×hodnotitele×...) tvoří specifický rozptyl respondenta/položky/situace/... Zobecňuje z měření na prostor (universum). ◦ Na základě měření odhaduje rozptylové komponenty v prostoru. ◦ Tohle je ta výpočetně náročnější část GT. G-studie: Rozptylové komponenty KLASICKÁ TESTOVÁ TEORIE Složení pravého skóru: 𝑋 = 𝑇 + 𝑒 Rozptylové komponenty: 𝜎 𝑥 2 = 𝜎𝜏 2 + 𝜎𝑒 2 ◦ pravý skór a chyba jsou ortogonální, proto chyby jejich kovariance („+2𝜎𝜏𝑒 2 ) TEORIE ZOBECNITELNOSTI Složení obecného skóru – např. 2fasetový design: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒 𝜏1 + 𝑒 𝜏2 + 𝑒12 + 𝑒 𝜏12,𝑒 Rozptylové komponenty: 𝜎 𝑥 2 = 𝜎𝜏 2 + 𝜎1 2 + 𝜎2 2 + 𝜎𝜏1 2 + 𝜎𝜏2 2 + 𝜎12 2 + 𝜎𝜏12,𝑒 2 ◦ Veškeré rozptylové chyby (jak obecné skóry, tak chyby) jsou na sebe ortogonální, proto chybí jejich kovariance. G-studie: příklad Příklad: 2fasetový design p × i × o. ◦ N respondentů p (persons) ◦ Osoby jsou tam vždy, proto se nepočítají do počtu faset ◦ 3 položky i (items) ◦ 2 administrace/situace o (occasions) Pozorovaný skór X: ◦ 𝑋 = mean 𝑋 𝑝𝑖𝑜 ; E 𝑋 = 𝑇 Pozorovaný skór je součtem všech komponent: 𝑋 = 𝑇 + 𝑒𝑖 + 𝑒 𝑜 + 𝑒 𝑝×𝑖 + 𝑒 𝑝×𝑜 + 𝑒𝑖×𝑜 + 𝑒 𝑝×𝑖×𝑜 Celkový rozptyl pozorovaného skóre (prvků datové matice): 𝜎 𝑋 𝑝𝑖𝑜 2 = 𝜎 𝑝 2 + 𝜎𝑖 2 + 𝜎𝑜 2 + 𝜎 𝑝𝑖 2 + 𝜎 𝑝𝑜 2 + 𝜎𝑖𝑜 2 + 𝜎 𝑝𝑖𝑜,𝑒 2 Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf G-studie: Odhad rozptylových komponent Historicky GT vznikla okolo ANOVA. ◦ Konkrétně repeated measure ANOVA. ◦ ANOVA terminologií jsou jednotlivými „fasetami“ tradiční ANOVA „faktory“. ◦ Proměnné jsou uvažovány jako random (např. náhodný výběr času) nebo fixed effect (např. test stabilně složený ze stejných položek). ◦ Random modely jsou častější. Aktuálně se zpravidla používá LMM (linear mixed model). ◦ Výhody např. při odhadu tzv. unbalanced designů (rozdílné počty různých prvků v datech). ◦ Menší předpoklady, vyšší flexibilita. ◦ Výsledek by se neměl lišit (při dodržení předpokladů), reálně jsou odlišnosti malé. GT: SW pro odhad G-studie Tradiční SW: ◦ GENOVA, mGENOVA (staré DOSovské aplikace) ◦ Různé podivné malé prográmky (G String V) SPSS (lze ručně upravit syntax pro mixed-modely). ◦ Mushquash, C. and O’Connor, B.P. (2006) ‘SPSS and SAS programs for generalizability theory analyses’, Behavior Research Methods, 38(3), pp. 542–547. doi: 10.3758/bf03192810 R, zejména balíček lme4 (mixed modely) a případně gtheory (nástavba lme4). ◦ Případně pak hemp dostupný na githubu (doplněk ke knize Desjardins, C. D., & Bulut, O., 2018). Přehled dostupných programů: ◦ Taşdelen Teker, G., Güler, N. and Kaya Uyanık, G. (2015) Comparing the effectiveness of SPSS and EduG using different designs for Generalizability theory, Educational Sciences: Theory & Practice, 15(3). doi: 10.12738/estp.2015.3.2278 ◦ Yelboga, A. (2015) Estimation of Generalizability coefficient: An application with different programs. Archives of Current Research International, 2(1), pp. 46–53. doi: 10.9734/acri/2015/17409 V předchozím případě by syntax pro R byl: ◦ Předpokladem je převedení na tzv. dlouhý formát, kde jeden řádek = 1 odpověď, a další proměnné jsou person (1-N), item (1-3), ocassion (1-2) require(lme4) require(gtheory) model <- "response ~ (1 | person) + (1 | item) + (1 | occasion) + (1 | person:item) + (1 | person:occasion) + (1 | item:occasion)" Pozn.: poslední chybovou fasetou je (1 | person:item:occasion) – ta reprezentuje „zbytek“ a je proto chybou v klasickém slova smyslu (vše, co není vysvětleno ničím předchozím) , proto ji není nutné do modelu zadávat). gstudy <- gstudy(data = data, formula = model) print(gstudy) GT: Způsob odhadu G-studie v R odp. P I O 4 1 1 1 2 1 2 1 5 1 3 1 4 1 1 2 odp. P I O 3 1 2 2 4 1 3 2 3 2 1 1 1 2 2 1 Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf D-studie Rozhodovací (Decision) studie slouží k odhadu chyby měření pro konkrétní design s využitím informací z G-studie. Definuje tzv. „prostor zobecnění“ (počtem pozorování, počtem položek atp.), pro který bude naše měření platit. ◦ V rámci tohoto prostoru má každý respondent tzv. U-skór (universe). Odhad chyby odhadu universe skóru pro zvolený hypotetický design – např. p×I×O. D-studie: Obecný postup 1. Volba jednotky/subjektu měření (nemusí být respondent). 2. Volba designu, resp. prostoru/prostorů zobecnění. 3. Identifikace chybových složek. 4. Volba počtu prvků faset (nemusí se shodovat s G-studií). 5. Výpočet chyby odhadu. 6. Výpočet koeficientu reliability. D-studie: Dva typy zobecnění Relativní (norm-referenced) – zobecnění v rámci vybraných prvků fasety. ◦ Všechny fasety jsou zafixovány napříč jednotkami měření. ◦ Např. test složený z pevného setu položek. ◦ Díky fixaci se jejich prvky stanou konstantou. ◦ Reliabilita odhadována pomocí koeficientu zobecnitelnosti. ◦ Přímo srovnatelný s různými druhy CTT reliability. Absolutní (kriteriální) – zobecnění na celou fasetu. ◦ Tento odhad nese více nejistoty. ◦ Reliabilita odhadována pomocí koef. spolehlivosti (dependability). ◦ Lze uvažovat pravděpodobnost překročení absolutního kritéria. Spíše než otázka celého designu otázka dílčích faset (smíšený design). D-studie: Odhad chyby měření Celková chyba odhadu obecného skóru = suma čtverců chyb odhadu komponent. ◦ Chyba odhadu dílčí komponenty = standardní chyba průměru1. ◦ Tedy rozptylová komponenta z G-studie dělená počtem pozorovaných prvků dané fasety: 𝜎𝑒 2 = 𝜎𝑒1 2 𝑛1 + 𝜎𝑒2 2 𝑛2 + 𝜎𝑒3 2 𝑛3 + ⋯ + 𝜎𝑒𝑘 2 𝑛 𝑘 Reliabilita se potom spočítá dle obecného vzorce pro vysvětlený rozptyl: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 ◦ 𝜎𝜏 2 - rozptyl jednotek měření, tedy universe skórů ◦ 𝜎𝑒 2 - chybový rozptyl, tedy součet všech chybových komponent 1 standardní chyba průměru SEM: 𝑆𝐸𝑀 = 𝑆𝐷 𝑁 → 𝑆𝐸𝑀2 = 𝑆𝐷2 𝑁 ; SD – směrodatná odchylka; N – velikost vzorku/počet pozorování Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf Relativní D-studie: Příklad Jaká bude chyba průměrného skóre ze 2 administrací 10položkového testu? Relativní chybový rozptyl 𝜎 𝛿 2 : 𝜎 𝛿 2 = 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .810 1 × 10 + .230 1 × 2 + 1.413 1 × 10 × 2 = .267 Podíl chybového rozptylu (reliabilita): koeficient zobecnitelnosti: 𝐺 = 𝐸𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2 + 𝜎 𝛿 2 = 1,108 1,108 + 0,267 = 𝟎, 𝟖𝟎𝟔 Koeficient zobecnitelnosti je přímo srovnatelný s reliabilitou v CTT (𝑁𝑝 = 1 vynecháno): ◦ Vnitřní konzistence 1 měření v 1 okamžik: 𝜎 𝛿 2 = 𝜎 𝑝𝑖 2 𝑁 𝑖 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁 𝑖×𝑁 𝑜 = .810 10 + 1.413 10×1 = .222  𝐺 = 1,108 1,108+0,222 = 0,833 ◦ Test-retest 1 měření: 𝜎 𝛿 2 = 𝜎 𝑝𝑖 2 𝑁 𝑖 + 𝜎 𝑝𝑜 2 𝑁 𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁 𝑖×𝑁 𝑜 = .810 10 + .230 1 + 1.413 10×1 = .452  𝐺 = 1,108 1,108+0,452 = 0,710 Absolutní D-studie: Příklad Jaká bude chyba průměrného skóre 10 položek a 2 měření, pokud každý absolvuje jiné položky? ◦ Nebo jde o kriteriární test, kdy nás zajímá skóre napříč všemi možnými položkami. Absolutní chybový rozptyl 𝜎∆ 2 : 𝜎∆ 2 = 𝜎𝑖 2 𝑁𝑖 + 𝜎 𝑜 2 𝑁𝑜 + 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .102 10 + .030 2 + .810 1 × 10 + .230 1 × 2 + .001 10 × 2 + 1.413 1 × 10 × 2 = .292 Podíl chybového rozptylu: koeficient spolehlivosti Φ (dependability): Φ = 𝜎 𝑝 2 𝜎 𝑝 2 + 𝜎∆ 2 = 1,108 1,108 + 0,292 = 0,791 Pokud zjišťujeme spolehlivost překročení absolutního kritéria 𝜆: Φ 𝜆 = 𝜎 𝑝 2+ 𝜇−𝜆 2 𝜎 𝑝 2+ 𝜇−𝜆 2+𝜎∆ 2 ◦ Φ 𝜆 je vyšší, čím dále je kritérium od průměru 𝜇. D-studie: absolutní Uvažuje veškeré faktory jako náhodné, přičemž tyto faktory se mohou lišit mezi respondenty. Případně nás zajímá skór napříč všemi potenciálními prvky všech faset (typicky u kriteriálních výkonových testů): ◦ např. relativní: 70 % správně z daných 10 položek. ◦ např. absolutní: 70 % správně ze všech možných položek. Zobecňuje tedy na universe score napříč celým (nejvyšším) prostorem. ◦ Náhodný výběr položek, časů, hodnotitelů ze všech možných atd. ◦ Tento universe score bude mít tedy vyšší chybu než universe score. Využití GT Odhad reliability/chyby měření. Vývoj testu: jak se změní reliabilita, pokud použiju jiný počet prvků z domény? ◦ S minimální finanční/časovou náročností maximalizovat reliabilitu testu. ◦ Obdoba Spearman-Brownova věšteckého vzorce, ale pro více zdrojů chyb než „počet testů“. GT je velmi cenná v případě, že máme skutečně paralelní položky. ◦ Např. tzv. škrtací testy pro měření reakčního času, kde jsou dílčí položky řazené do bloků (a třeba testované opakovaně). Využití GT: Optimální počet prvků faset Seminární práce. Variuji: ◦ počtem hodnotitelů; ◦ počtem hodnocených prací. Pokud např. chci investovat na každého studenta max. čtyři hodnocené práce, co je nejvýhodnější? ◦ A) 4 pokusy, 1 hodnotitel ◦ B) 2 pokusy, 2 hodnotitelé ◦ C) 3 pokusy, 1 hodnotitel ◦ D) 1 pokus, 4 hodnotitelé Převzato z Brennan (2001) – jde o jiná data než výše. Využití GT: Multilevel design Prvkem měření nemusí být respondent, ale např. školní třída (pak je faseta „žáci“ chybou). Občas nejsou prvky „crossed“, ale „nested“. Např. žáci patří právě do jedné třídy, nepozorujeme je ve více třídách (c=class, S=student, I=item): ◦ G-studie: (s:c)×i ◦ D-studie pro žáka uvnitř třídy: (s:C)×I (pořadí žáka ve třídě) ◦ D-studie pro žáka napříč třídami: (s:c)×I (pořadí žáka napříč třídami) Pokud byl design G-studie rozsáhlejší než design D-studie, může se stát, že se rozptyl universe skóru skládá z více rozptylových komponent. ◦ V příkladu výše zobecnění výkonu žáka uvnitř vs. napříč třídami. ◦ Doporučuji držet stejný design D a G studií, jinak se vše značně komplikuje (ale specifikační chyba v G- studii...). G-studie vs. D-studie G-STUDIE Zaměřuje se na rozptylové komponenty. ◦ Odhad jejich velikosti. Design např.: 𝑝 × 𝑡 × 𝑟 ◦ Malá písmena značí rozptylové komponenty. Vychází z dat. ◦ Zobecňuje z měření na prostor, tvoří model. ◦ Nejlépe cross-design. D-STUDIE Zaměřuje se na odhad chyby měření. ◦ A reliability. Design např.: 𝑝 × 𝑇 × 𝑅 ◦ Velká písmena značí pozorování. Vychází z modelu G-studie. ◦ Zobecňuje z prostoru na měření. ◦ Volíme design dle účelu. GT: závěrem Při zobecnění na více položek shodné výsledky s S-B vzorcem. Lze mít také více závislých proměnných (multivariate analysis of variance, MANOVA): ◦ Odhad reliability kompozitu, rozdílových skórů, profilu apod. ◦ Analogie k velmi zjednodušenému strukturnímu modelu. Výhodné při standardizaci testů, kde je přítomno více zdrojů chyb ◦ Např. examinátor-retest-položky. ◦ Minimum výhod při využití prostého odhadu test-retest reliability pomocí korelace celkových skórů, GT poskytne více informací. Nepříliš doceněná (člověk musí rozumět, aby mohl použít). Doporučuji: Brennan, R. L. (2001). Generalizability Theory. New York: Springer. ◦ Drobné texty viz studijní materiály. Vnitrotřídní korelace pro P×I design Shrout a Fleiss (nejběžněji používané) McGraw a Wong (občasně používané) GT design ICC(1,1) One-way random, single score ICC(1) p (jediná faseta plus error, Ne=1) ICC(2,1) Two-way random, single score ICC(A,1) p×I (absolutní, Ni = 1) ICC(3,1) Two-way mixed, single score ICC(C,1) p×I (relativní, Ni = 1) ICC(1,k) One-way random, average score ICC(k) p (jediná faseta plus error, Ne=k) ICC(2,k) Two-way random, average score ICC(A,k) p×I (absolutní, Ni = k) ICC(3,k) Two-way mixed, average score ICC(C,k) p×I (relativní, Ni = k) A=agreement, C=consistency