Standardní chyba měření
PSYb2590: Základy psychometriky (Seminář 2)
27. 2./6. 3. 2023
T    r =
o.
x
o ž + o.
Odhadli jste reliabilitu. Jaká bude chyba měření?
Odvoďte ©
Standardní chyba měření (SEM)
• Směrodatná odchylka jednotlivých paralelních testů (pozorovaných skórů) kolem jejich průměru (pravého skóre).
• Lze využít pro konstrukci intervalu spolehlivosti pro pravý skór
• Cl = E(t) ± zvSEM ;
• Zp je kvantil normálního rozložení: z95o/o = 1,96; z90% — 1>64; z80o/0 = 1,28; z68o/0 = 1.
SE
• Ale...
Regresní model CT
• Naměřil jsem klientovi IQ 130 v inteligenčním testu
• Náhodně vybraný z populace, nemáme žádné další informace.
* ^xxi 0,8.
Jaká je nejpravděpodobnější hodnota jeho „pravého IQ?
. o-J = (j 2 + o2
Správná odpověď je 124.
i/3 O
d
o
0
Cl
>1> >
01
^—'
O -I—I
o o
co o
CM
o
o o
o o
o
40
60
SO
100
120
140
160
IQ
Regresní model CTT
• Naměřené hodnoty se pohybují kolem pravé hodnoty, nikoliv naopak. Jinými slovy: chyba měření je chybou pravého skóru, nikoliv pozorovaného.
• Výsledkem je tzv. regrese k průměru.
• Intervaly spolehlivosti jsou „asymetrické" kolem naměřené hodnoty.
• Viz doporučení z povinné literatury (Dudek, 1979)
Regresní model CTT
• Vzorec pro predikci t z X:
E(t) = a + bX
• Využijeme běžné vzorce z lineární regrese (viz PSYbll70).
• Směrnice: b = rXT —
• sT odvodíme z s% = sT2 + s|    sT = yjř^sx) rXT = yfř^p
• Tedy: b = rxx>
• Intercept: a = MT - bMx = MT - rxxrMx
• My ale víme, že průměry jsou shodné: MT = Mx — M.
• Po dosazení:
E(t) = Mx- rxx,Mx + rxx,x = rxx,x + (1 - rxx,)Mx
Regresní model CTI
E(7|x) = rxx>x + (1 - rxx)Mx
J£        | J£ ^ ^XX'
• E(7|x) : očekávané pravé skóre T na základě pozorovaného x.
• rxx- : reliabilita („směrnice")
• Mx : průměrné skóre; ((1 — rxx)Mx je „průsečík")
• Čím větší je reliabilita, tím větší je vliv pozorovaného skóre a menší vliv populačního průměru (a naopak).
Regresní model CTT
Obrázek 2: Simulace chyb měření a odhadu [N = 100 000)
120 100
40 J-
pravý skór (T) pozorovaný skóre (X)
průměrný rozdíl exp(T)-T      průměrný rozdílX-T
http://dx.doi.org/10.5817/TF2015-6-104
Pravé vs. pozorované skóre
• SD pravého vs. pozorovaného skóre:
_aj_ _
tXX   ~     9 _ \^XX®X
• SD pravého skóre má y/rXX'krét menší SD než pozorované skóre.
• Někdy se pro konstrukci standardních skórů používá právě odhad směrodatné odchylky pravého skóre
ax y[ř~ (např. WISC-IVUK).
• Preferovaný postup.
• V takovém případě při standardizaci použijeme standardní chybu odhadu pravého skóre:
SET = ax Vrxx'V 1 — rxx'
• (Nemá vliv na další výpočty s již standardizovanými skóry.)
Postup výpočtu intervalu spolehlivosti měření
1. Výběr vhodného koeficientu reliability
• Typicky vnitřní konzistence.
2. Odhad pravého skóre.
• E(rlx)   =  Tyy'X  +  (1  — rYY')My  =  My  +  (X ~ M.S)Tyy'
3. Výpočet standardní chyby měření.
• SE = ae = a x J1 — rxx-
4. Volba šířky intervalu (hladiny spolehlivosti).
• z95% = 1'96; Zgoo/p = 1,64; Zso% = 1*28; z68o/0 = 1
5. Konstrukce Cl kolem odhadu pravého skóre.
• Cl = E(T\x) + z ' SE
Asymetrické intervaly spolehlivosti
r	0,001		0,2		0,7		0,9		0,999	
SE	14,99		13,42		8,22		4,74		0,47	
IQ	E(t)	95% Cl	E(t)	95% Cl	E(t)	95% Cl	E(t)	95% Cl	E(t)	95% Cl
40	100	[70,6-129,3]	88	[61,7-114,3]	58	[41,9-74,1]	46	[36,7-55,3]	40	[39,1-41]
60	100	[70,6-129,3]	92	[65,7-118,3]	72	[55,9-88,1]	64	[54,7-73,3]	60	[59,1-61]
80	100	[70,6-129,4]	96	[69,7-122,3]	86	[69,9-102,1]	82	[72,7-91,3]	80	[79,1-80,9]
100	100	[70,6-129,4]	100	[73,7-126,3]	100	[83,9-116,1]	100	[90,7-109,3]	100	[99,1-100,9]
120	100	[70,6-129,4]	104	[77,7-130,3]	114	[97,9-130,1]	118	[108,7-127,3]	120	[119,1-120,9,
140	100	[70,7-129,4]	108	[81,7-134,3]	128	[111,9-144,1]	136	[126,7-145,3]	140	[139-140,9]
160	100	[70,7-129,4]	112	[85,7-138,3]	142	[125,9-158,1]	154	[144,7-163,3]	160	[159-160,9]
Rozdíl dvou pozorovaných měření
• Nejjednodušeji: srovnání, zda se Cl nepřekrývají.
• Příliš striktní, malá síla testu.
• Standardní chyba rozdílu:
• V případě jediného testu: SEA_B = ax VŽy71 — rxx-
• Očekávaným rozdílem je 0, interval se konstruuje kolem nuly.
• Předpokládá se nezávislost chyb měření.
Predikce jednoho skóre z jiného
• Koeficient determinace ze statistiky
• Nepredikujeme z měření na pravý skór, ale z měření na měření; proto je nutné reliabilitu ještě jednou umocnit.
• Očekávaným skórem je odhad pravého skóre, konstruuje se kolem predikce.
• Typicky se využívá test-retest reliabilita.
• Lze ale využít i pro predikci skóre z jednoho testu z jiného (pak dosadíme korelaci namísto reliability).
• Standardní chyba predikce:
• SE
pred ~ UX
Standardní chyba predikce vs. standardní chyba rozdílu
• Predikce: SEpred = ox íl-ř^ž
• Jde o chybu rozdílu pozorovaného a predikovaného:
Rozdíl: SEA_B = ox V2J1 - rxx-
• Jde o chybu rozdílu přímo pozorovaných skórů: A-B.
Standardní chyba predikce vs. standardní chyba rozdílu
• Mezisubjektová inference: vždy chyba rozdílu.
• Vnitrosubjektová inference:
• Chyba predikce: v rámci jednoho testu napříč časem.
• Chyba predikce: tzv. „klinicky významný rozdíl".
• Chyba rozdílu: rozdíl dvou „rovnocenných testů".
• Pro účely tohoto kurzu: Použití standardní chyby predikce není chyba ©
• Výjimkou je právě tzv. „klinicky významný rozdíl" ale tomu se nyní nevěnujeme.
Více různých druhů chyb
• Více chyb pro více účelů. Přehled:
• Dudek, F. J. (1979). The continuing misinterpretation of the standard error of measurement. Psychological Bulletin, 86(2), 335-337. https://doi.Org/10.1037/0033-2909.86.2.335
• Harvill, L. M. (1991). An NCME Instructional Module on Standard Error of Measurement. Educotionol Measurement: Issues and Practice, 10(2), 33-41. https://doi.ojg/10.111l/i.l745-3992.1991.tb00195.x
• Ciller, H., & Šmíra, M. (2015). Chyba měření a odhad pravého skóru: Připomenutí některých postupů Klasické testové teorie. Testfórum, 4(6), 67-84. https://doi.org/10.5817/TF2015-6-104
• Pro účely PSb2590 stačí výpočty uvedené v prezentaci.
• Diagnostická kalkulačka: http://kalkulacka.testforum.cz
• (Ale nedoporučuji se spoléhat jen na kalkulačku, dovedost výpočtu může byt důležitá a hodnocená!)
Praktické cvičení 1
• Zbyněk byl vyšetřen testem hudebního nadání a v testu dosáhl 40 bodů.
• Víte, že průměrné skóre je M=60 (SD=20) a reliabilita r=0,7.
• Jaký je interval spolehlivosti tohoto měření?
• Zbyněk není spokojen s výsledkem a nechá se vyšetřit znovu. V jakém intervalu bude nejspíše ležet jeho druhý výsledek?
Praktické cvičení 2
• Zbyšek byl vyšetřen testem matematických schopností, jeho T-skóre je T=70.
• Víte, že vnitřní konzistence je a=0,9 a test-retest po 3 měsících r=0,8.
• Jaký je interval spolehlivosti tohoto měření?
• Na základě testování Zbyšek podstoupí 3měsíční kurz rozvoje matematických schopností. Po jeho ukončení je znovu vyšetřen. Jakého skóre musí dosáhnout, aby byl kurz „úspěšný"?
Praktické cvičení 3
• Zbyněk byl vyšetřen psycholožkou dvěma talentovými testy - testem hudebního nadání a testem matematického nadání.
• V testu hudebního nadání získal Zbyněk 70 bodů z 90 možných a v testu matematického nadání 75 bodů ze 100 možných.
• Víme, že test hudebního nadání má přibližně normální rozložení o průměru 50b (SD=20) a test matematického nadání má také normální rozložení o průměru 45 (SD=15).
• Reliabilita testu hudebního nadání je rH=0,8, reliabilita testu matematického nadání je rM=0,9.
• Ve které z testovaných oblastí má Zbyněk výraznější talent?