Standardní chyba měření PSYb2590: Základy psychometriky (Seminář 2) 27. 2./6. 3. 2023 T r = o. x o ž + o. Odhadli jste reliabilitu. Jaká bude chyba měření? Odvoďte © Standardní chyba měření (SEM) • Směrodatná odchylka jednotlivých paralelních testů (pozorovaných skórů) kolem jejich průměru (pravého skóre). • Lze využít pro konstrukci intervalu spolehlivosti pro pravý skór • Cl = E(t) ± zvSEM ; • Zp je kvantil normálního rozložení: z95o/o = 1,96; z90% — 1>64; z80o/0 = 1,28; z68o/0 = 1. SE • Ale... Regresní model CT • Naměřil jsem klientovi IQ 130 v inteligenčním testu • Náhodně vybraný z populace, nemáme žádné další informace. * ^xxi 0,8. Jaká je nejpravděpodobnější hodnota jeho „pravého IQ? . o-J = (j 2 + o2 Správná odpověď je 124. i/3 O d o 0 Cl >1> > 01 ^—' O -I—I o o co o CM o o o o o o 40 60 SO 100 120 140 160 IQ Regresní model CTT • Naměřené hodnoty se pohybují kolem pravé hodnoty, nikoliv naopak. Jinými slovy: chyba měření je chybou pravého skóru, nikoliv pozorovaného. • Výsledkem je tzv. regrese k průměru. • Intervaly spolehlivosti jsou „asymetrické" kolem naměřené hodnoty. • Viz doporučení z povinné literatury (Dudek, 1979) Regresní model CTT • Vzorec pro predikci t z X: E(t) = a + bX • Využijeme běžné vzorce z lineární regrese (viz PSYbll70). • Směrnice: b = rXT — • sT odvodíme z s% = sT2 + s| sT = yjř^sx) rXT = yfř^p • Tedy: b = rxx> • Intercept: a = MT - bMx = MT - rxxrMx • My ale víme, že průměry jsou shodné: MT = Mx — M. • Po dosazení: E(t) = Mx- rxx,Mx + rxx,x = rxx,x + (1 - rxx,)Mx Regresní model CTI E(7|x) = rxx>x + (1 - rxx)Mx J£ | J£ ^ ^XX' • E(7|x) : očekávané pravé skóre T na základě pozorovaného x. • rxx- : reliabilita („směrnice") • Mx : průměrné skóre; ((1 — rxx)Mx je „průsečík") • Čím větší je reliabilita, tím větší je vliv pozorovaného skóre a menší vliv populačního průměru (a naopak). Regresní model CTT Obrázek 2: Simulace chyb měření a odhadu [N = 100 000) 120 100 40 J- pravý skór (T) pozorovaný skóre (X) průměrný rozdíl exp(T)-T průměrný rozdílX-T http://dx.doi.org/10.5817/TF2015-6-104 Pravé vs. pozorované skóre • SD pravého vs. pozorovaného skóre: _aj_ _ tXX ~ 9 _ \^XX®X • SD pravého skóre má y/rXX'krét menší SD než pozorované skóre. • Někdy se pro konstrukci standardních skórů používá právě odhad směrodatné odchylky pravého skóre ax y[ř~ (např. WISC-IVUK). • Preferovaný postup. • V takovém případě při standardizaci použijeme standardní chybu odhadu pravého skóre: SET = ax Vrxx'V 1 — rxx' • (Nemá vliv na další výpočty s již standardizovanými skóry.) Postup výpočtu intervalu spolehlivosti měření 1. Výběr vhodného koeficientu reliability • Typicky vnitřní konzistence. 2. Odhad pravého skóre. • E(rlx) = Tyy'X + (1 — rYY')My = My + (X ~ M.S)Tyy' 3. Výpočet standardní chyby měření. • SE = ae = a x J1 — rxx- 4. Volba šířky intervalu (hladiny spolehlivosti). • z95% = 1'96; Zgoo/p = 1,64; Zso% = 1*28; z68o/0 = 1 5. Konstrukce Cl kolem odhadu pravého skóre. • Cl = E(T\x) + z ' SE Asymetrické intervaly spolehlivosti r 0,001 0,2 0,7 0,9 0,999 SE 14,99 13,42 8,22 4,74 0,47 IQ E(t) 95% Cl E(t) 95% Cl E(t) 95% Cl E(t) 95% Cl E(t) 95% Cl 40 100 [70,6-129,3] 88 [61,7-114,3] 58 [41,9-74,1] 46 [36,7-55,3] 40 [39,1-41] 60 100 [70,6-129,3] 92 [65,7-118,3] 72 [55,9-88,1] 64 [54,7-73,3] 60 [59,1-61] 80 100 [70,6-129,4] 96 [69,7-122,3] 86 [69,9-102,1] 82 [72,7-91,3] 80 [79,1-80,9] 100 100 [70,6-129,4] 100 [73,7-126,3] 100 [83,9-116,1] 100 [90,7-109,3] 100 [99,1-100,9] 120 100 [70,6-129,4] 104 [77,7-130,3] 114 [97,9-130,1] 118 [108,7-127,3] 120 [119,1-120,9, 140 100 [70,7-129,4] 108 [81,7-134,3] 128 [111,9-144,1] 136 [126,7-145,3] 140 [139-140,9] 160 100 [70,7-129,4] 112 [85,7-138,3] 142 [125,9-158,1] 154 [144,7-163,3] 160 [159-160,9] Rozdíl dvou pozorovaných měření • Nejjednodušeji: srovnání, zda se Cl nepřekrývají. • Příliš striktní, malá síla testu. • Standardní chyba rozdílu: • V případě jediného testu: SEA_B = ax VŽy71 — rxx- • Očekávaným rozdílem je 0, interval se konstruuje kolem nuly. • Předpokládá se nezávislost chyb měření. Predikce jednoho skóre z jiného • Koeficient determinace ze statistiky • Nepredikujeme z měření na pravý skór, ale z měření na měření; proto je nutné reliabilitu ještě jednou umocnit. • Očekávaným skórem je odhad pravého skóre, konstruuje se kolem predikce. • Typicky se využívá test-retest reliabilita. • Lze ale využít i pro predikci skóre z jednoho testu z jiného (pak dosadíme korelaci namísto reliability). • Standardní chyba predikce: • SE pred ~ UX Standardní chyba predikce vs. standardní chyba rozdílu • Predikce: SEpred = ox íl-ř^ž • Jde o chybu rozdílu pozorovaného a predikovaného: Rozdíl: SEA_B = ox V2J1 - rxx- • Jde o chybu rozdílu přímo pozorovaných skórů: A-B. Standardní chyba predikce vs. standardní chyba rozdílu • Mezisubjektová inference: vždy chyba rozdílu. • Vnitrosubjektová inference: • Chyba predikce: v rámci jednoho testu napříč časem. • Chyba predikce: tzv. „klinicky významný rozdíl". • Chyba rozdílu: rozdíl dvou „rovnocenných testů". • Pro účely tohoto kurzu: Použití standardní chyby predikce není chyba © • Výjimkou je právě tzv. „klinicky významný rozdíl" ale tomu se nyní nevěnujeme. Více různých druhů chyb • Více chyb pro více účelů. Přehled: • Dudek, F. J. (1979). The continuing misinterpretation of the standard error of measurement. Psychological Bulletin, 86(2), 335-337. https://doi.Org/10.1037/0033-2909.86.2.335 • Harvill, L. M. (1991). An NCME Instructional Module on Standard Error of Measurement. Educotionol Measurement: Issues and Practice, 10(2), 33-41. https://doi.ojg/10.111l/i.l745-3992.1991.tb00195.x • Ciller, H., & Šmíra, M. (2015). Chyba měření a odhad pravého skóru: Připomenutí některých postupů Klasické testové teorie. Testfórum, 4(6), 67-84. https://doi.org/10.5817/TF2015-6-104 • Pro účely PSb2590 stačí výpočty uvedené v prezentaci. • Diagnostická kalkulačka: http://kalkulacka.testforum.cz • (Ale nedoporučuji se spoléhat jen na kalkulačku, dovedost výpočtu může byt důležitá a hodnocená!) Praktické cvičení 1 • Zbyněk byl vyšetřen testem hudebního nadání a v testu dosáhl 40 bodů. • Víte, že průměrné skóre je M=60 (SD=20) a reliabilita r=0,7. • Jaký je interval spolehlivosti tohoto měření? • Zbyněk není spokojen s výsledkem a nechá se vyšetřit znovu. V jakém intervalu bude nejspíše ležet jeho druhý výsledek? Praktické cvičení 2 • Zbyšek byl vyšetřen testem matematických schopností, jeho T-skóre je T=70. • Víte, že vnitřní konzistence je a=0,9 a test-retest po 3 měsících r=0,8. • Jaký je interval spolehlivosti tohoto měření? • Na základě testování Zbyšek podstoupí 3měsíční kurz rozvoje matematických schopností. Po jeho ukončení je znovu vyšetřen. Jakého skóre musí dosáhnout, aby byl kurz „úspěšný"? Praktické cvičení 3 • Zbyněk byl vyšetřen psycholožkou dvěma talentovými testy - testem hudebního nadání a testem matematického nadání. • V testu hudebního nadání získal Zbyněk 70 bodů z 90 možných a v testu matematického nadání 75 bodů ze 100 možných. • Víme, že test hudebního nadání má přibližně normální rozložení o průměru 50b (SD=20) a test matematického nadání má také normální rozložení o průměru 45 (SD=15). • Reliabilita testu hudebního nadání je rH=0,8, reliabilita testu matematického nadání je rM=0,9. • Ve které z testovaných oblastí má Zbyněk výraznější talent?