Teorie zobecnitelnosti (z rychlíku) „Ultimátní teorie měření pro všechny případy“ Hynek Cígler | IVDMR FSS MU | 9. 4. 2019 CTT: Hodně chyb, hodně reliabilit...  Mnoho způsobů odhadů reliability a druhů chyby:  stabilita v čase (dependabilita, stabilita) – test-retest  vnitřní konzistence  ekvivalence – paralelní formy  shoda posuzovatelů  CTT: „Reliabilita pro jaký účel“?  CTT: „Obecná reliabilita“ neexistuje.  Řešením problému „mnoho chyb, mnoho reliabilit“ je právě GT (Cronbach et al., 1963; 1972).  Cronbach, L.J., Nageswari, R., & Gleser, G.C. (1963).Theory of generalizability:A liberation of reliability theory. The British Journal of Statistical Psychology, 16, 137-163. Teorie zobecnitelnosti Generalizability theory (GT) Teorie zobecnitelnosti Generalizability theory (GT) Cronbach, 1991, cit. dle Brenan (2001) Východiska GT vs. CTT  GT i CTT: Operacionalismus (antirealismus).  Srovnej s teoriemi latentních rysů (FA, IRT).  CTT: Pravý skór = očekávané skóre v daném setu položek I. 𝜏 = 𝐸 𝑋|𝐼 „Měřený“ atribut je definován tímto setem položek.  GT: Pravý skór = očekávané skóre v daném prostoru významů. 𝜏 = 𝐸 𝑋 𝐼, 𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛𝑠 „Měřený“ atribut je definován způsobem výběru položek a prostorem zobecnění.  Explicitně se pracuje s úvahou „reliabilita vůči čemu“.  Úzce propojeno s teorií faset (např. Guttman, 1959; Shye, 1978). Model „měření“ GT  CTT: 𝑋 = 𝑇 + 𝑒  GT: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + … + 𝑒 𝑛  kde např. e1 je specifický skór v daném čase, e2 daného posuzovatele, e3 položky (vnitřní konzistence) atd.  Tyto chyby ale nejsou nezávislé; např. různí hodnotitelé mohou hodnotit různě v různých situacích.  Proto interakce: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + 𝑒1 𝑒2 + 𝑒2 𝑒3 + 𝑒2 𝑒3 + 𝑒1 𝑒2 𝑒3  Jednotlivé zdroje rozptylu se označují jako fasety. Oblasti využití GT Kdy a proč ano? Proč ne?  Reliabilita na vyšších úrovních multilevel dat.  Vývoj testů.  Volba optimálního designu, počtu položek...  Souběžný odhad různých zdrojů chyby.  Více informací o měření vzhledem k CTT.  Odhad „neshody“, pokud nechci vážit.  Hodnotitelé, paralelní formy.  Blbá (operacionalistická) teorie měření.  Boring: „Měřím to, co měřím.“  Neumožňuje zkoumat konstrukty (protože neexistují).  Vysoká náročnost na statistické dovednosti.  Příliš silné předpoklady.  Zejm. zastupitelnost položek.  Existují lepší teoriemi měření pro obdobné účely.  Multilevel/mixture FA, IRT. Princip a účel GT  Odhad odhadu reliabilitu universe score  Analogie pravého skóre v CTT.  Průměrná odpověď napříč prostorem zobecnění.  Očekávaná odpověď daného respondenta pro náhodnou kombinaci prvků z odpovědních prostorů (faset).  Dvě klíčové části GT:  G-studie: Parcializace rozptylových složek.  D-studie: Odhad reziduálního rozptylu pro daný hypotetický design měření v závislosti na prostoru zobecnění.  Standardní chyba měření odhadu universe scoru.  Koeficient reliability pro takový odhad nad populací.  Využívá výsledků G-studie.  Některé postupy analogické GT jsou běžně používány jinde.  Reliabilita podle Hoyta je zjednodušeným předchůdcem GT.  Intraclass korelace je „standardizovaným“ použitím GT. Předpoklady GT  Podobné předpoklady jako CTT, jde o její rozšíření.  „Náhodný“ výběr prvků z nekonečně velkých faset.  Existují ale i úpravy pro „finite universe“.  Multivariační normální rozdělení, intervalová škála (ale...).  Jednodimenzionalita (ale MANOVA).  Konfirmační multidimenzionální model lze definovat i v lme4, ale většinou příliš porušené předpoklady.  Tau-ekvivalence položek (relativně vysoká robustnost, zvláště při větším počtu položek).  Z hlediska lineárního modelu homoskedascita reziduí. G-studie  G-studie = generalizability study  Odhad velikosti pozorovaných rozptylových komponent.  „Jakou část rozptylu jednoho pozorování (interakce respondenta×položky×situace×hodnotitele×...) tvoří specifický rozptyl respondenta/položky/situace/.../všech možných interakcí?“  Zobecňuje z měření na prostor (universum).  Odhad rozptylových komponenty v prostoru.  Tohle je ta výpočetně náročnější část GT.  Příklad: 2fasetový design p × i × o:  N respondentů p, 3 položky i a 2 administrace o  𝑋 = 𝑇𝑝 + 𝑒𝑖 + 𝑒 𝑜 + 𝑒 𝑝×𝑖 + 𝑒 𝑝×𝑜 + 𝑒𝑖×𝑜 + 𝑒 𝑝×𝑖×𝑜  Celkový rozptyl v datech (rozptyl všech prvků matice níže): 𝜎 𝑋 𝑝𝑖𝑜 2 = 𝜎 𝑝 2 + 𝜎𝑖 2 + 𝜎𝑜 2 + 𝜎 𝑝𝑖 2 + 𝜎 𝑝𝑜 2 + 𝜎𝑖𝑜 2 + 𝜎 𝑝𝑖𝑜,𝑒 2  Protože chybové rozptyly nekorelují, nejsou v rovnici kovariance faset. G-studie: příklad Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_ Papers/methods_papers/G%20Theory%20AERA.pdf G-studie: příklad Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_ Papers/methods_papers/G%20Theory%20AERA.pdf . Doporučuji. G-studie: Odhad rozptylových komponent  Historicky GT vznikla okolo ANOVA.  Konkrétně repeated measure ANOVA.  V tradiční terminologii faseta = faktor.  Least-squares estimator.  Aktuálně spíše LMM (linear mixed model).  ML estimátor (a jeho varianty).  Výhody při odhadu – např. unbalanced design (různé počty prvků faset), nested design (ne všechny kombinace faset jsou pozorovány), chybějící data.  Menší předpoklady, vyšší flexibilita.  Výsledek LS a ML by se neměl lišit (při dodržení předpokladů). D-studie  Odhad chyby odhadu universe skóru pro zvolený hypotetický design – např. p×I×O.  Klíčová je volba prostoru zobecnění, v jehož rámci má každý respondent hypotetický U-skór.  Ten se může lišit napříč prostory. Antirealismus!  Obecný postup:  1.Volba jednotky měření (nemusí být respondent).  2.Volba designu, resp. prostoru/prostorů zobecnění.  3. Identifikace chybových složek.  4.Volba počtu prvků faset (nemusí se shodovat s G-studií).  5.Výpočet chyby odhadu.  6.Výpočet koeficientu reliability. D-studie: Dva typy zobecnění  Relativní (norm-referenced) – zobecnění v rámci vybraných prvků fasety.  Všechny fasety jsou zafixovány napříč jednotkami měření.  Např. test složený z pevného setu položek.  Díky fixaci se jejich prvky stanou konstantou.  Reliabilita odhadována pomocí koeficientu zobecnitelnosti.  Přímo srovnatelný s různými druhy CTT realiability.  Absolutní (kriteriální) – zobecnění na celou fasetu.  Tento odhad nese více nejistoty.  Reliabilita odhadována pomocí koef. spolehlivosti (dependability).  Lze uvažovat pravděpodobnost překročení absolutního kritéria.  Spíše než otázka celého designu otázka dílčích faset.  Smíšený design, tedy kombinace relativních a absolutních faset, vše velmi výrazně komplikuje!!! D-studie: Odhad chyby měření  Chyba odhadu obecně: standardní chyba průměru „obtížnosti“ prvků fasety (na druhou).  Chybový rozptyl se tedy skládá ze součtu chybových rozptylových komponent podělených počtem jejich pozorování.  Reliabilita se potom spočítá dle obecného vzorce 𝑟 𝑥𝑥′ = 𝜎 𝑢 2 𝜎 𝑢 2 + 𝜎𝑒 2  𝜎 𝑢 2 - rozptyl jednotek měření, tedy universe skórů  𝜎𝑒 2 - chybový rozptyl D-studie: relativní příklad  Jaká bude chyba s využitím 10položkového testu při dvou měřeních?  Test je stále stejný, položky i příležitosti jsou fixed faktor.  Relativní chybový rozptyl 𝜎𝛿 2 : 𝜎𝛿 2 = 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .810 10 + .230 2 + 1.413 20 = .267  Velikost chybového rozptylu - koeficient zobecnitelnosti: 𝐺 = 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2 + 𝜎𝛿 2 = 1,108 1,108 + 0,267 = 0,806  Koeficient zobecnitelnosti je přímo srovnatelný s reliabilitou v CTT (v případě výše vnitřní konzistence průměru dvou měření).  Pro vnitřní konzistenci jediného měření (Cronbachovo alfa): 𝜎𝛿 2 = 𝜎 𝑝𝑖 2 𝑁 𝑖 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁 𝑖×𝑁 𝑜 = .810 10 + 1.413 10×1 = .222  G=0,833; D-studie: absolutní příklad  Jaká bude chyba při 10 položkách a 2 měřeních, pokud je test kriteriální (a zobecňujeme na všechny možno položky)? Absolutní chybový rozptyl 𝜎∆ 2 : 𝜎∆ 2 = 𝜎𝑖 2 𝑁𝑖 + 𝜎𝑜 2 𝑁𝑜 + 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .102 10 + .030 2 + .810 1 × 10 + .230 1 × 2 + .001 10 × 2 + 1.413 1 × 10 × 2 = .292  Koeficient spolehlivosti (dependability): Φ = 𝜎 𝑝 2 𝜎 𝑝 2+𝜎∆ 2 = 1,108 1,108+0,292 = 0,791  Pokud zjišťujeme spolehlivost překročení absolutního kritéria 𝜆:  Φ 𝜆 = 𝜎 𝑝 2+ 𝜇−𝜆 2 𝜎 𝑝 2+ 𝜇−𝜆 2+𝜎∆ 2  Φ 𝜆 je vyšší, čím dále je kritérium od průměru 𝜇.  Zobecňujeme na libovolné měření s libovolnými položkami/situacemi... D-studie: absolutní  Zobecňujeme na všechny možné prvky dané fasety.  Náchylnější na porušení předpokladu náhodného výběru z domény – záměrný výběr obtížných vs. snadných položek.  Kriteriální test:  Relativní: 70 % správně z daných 10 položek. (Což nedává smysl.)  Absolutní: 70 % správně ze všech možných položek.  Používá se i kombinace relativní a absolutní D-studie.  Test-retest: absolutní položky, relativní situace. Využití G-teorie: závěrečné poznámky  Odhad reliability/chyby měření.  Vývoj testu: jak se změní reliabilita, pokud použiju jiný počet prvků z domény?  S minimální finanční/časovou náročností maximalizovat reliabilitu testu.  Obdoba Spearman-Brownova věšteckého vzorce, ale pro více zdrojů chyb než „počet testů“.  GT je velmi cenná v případě, že máme skutečně paralelní položky – tedy nikoliv dotazníky, znalosti a pozornosti.  Např. tzv. škrtací testy pro měření reakčního času, kde jsou dílčí položky řazené do bloků (a třeba testované opakovaně). D-studie: relativní Převzato z Brennan (2001) – jde o jiná data než výše. Závěrečné poznámky  Prvkem měření nemusí být respondent, ale např. školní třída (pak je faseta „žáci“ chybovým rozptylem).  Občas nejsou prvky „crossed“, ale „nested“.  Např. žáci patří právě do jedné třídy, nepozorujeme je ve více třídách (c=class, S=student, I=item).  G-studie: (s:c)×i  D-studie pro žáka uvnitř třídy: (s:C)×I  D-studie pro žáka napříč třídami: (s:c)×I  Pokud byl design G-studie rozsáhlejší než design D-studie, může se stát, že se rozptyl universe skóru skládá z více rozptylových komponent.  V příkladu výše zobecnění výkonu žáka uvnitř vs. napříč třídami.  Doporučuji držet stejný design D a G studií, jinak se vše značně komplikuje (ale specifikační chyba v G-studii...). Vnitrotřídní korelace pro P×I design Shrout a Fleiss (nejběžnější) McGraw a Wong (občasné) GT design ICC(1,1) One-way random, single score ICC(1) P (jediná faseta plus error, Ne=1) ICC(2,1) Two-way random, single score ICC(A,1) P×I (absolutní, Ni = 1) ICC(3,1) Two-way mixed, single score ICC(C,1) P×I (relativní, Ni = 1) ICC(1,k) One-way random, average score ICC(k) P (jediná faseta plus error, Ne=k) ICC(2,k) Two-way random, average score ICC(A,k) P×I (absolutní, Ni = k) ICC(3,k) Two-way mixed, average score ICC(C,k) P×I (relativní, Ni = k) A=agreement, C=consistency Díky za pozornost!  Hynek Cígler  Katedra psychologie; Institut pro výzkum dětí, mládeže a rodiny Fakulta sociálních studií, Masarykova Univerzita  Joštova 10, 602 00 Brno  e-mail: hynek.cigler@mail.muni.cz  web: psych.fss.muni.cz, ivdmr.fss.muni.cz