U|\| T Katedra l\l í psychologie FSS Přednáška 9: Interpretace testových skórů 7. 11. 2022 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler Jak interpretovat testové skóry? Kromě samotných skórů je nezbytné vzít v úvahu další informace. ° Tato přednáška bude o vybraných aspektech důležitých pro jejich interpretaci. Kvalita diagnostické metody. Kvalita norem. Pokročilá práce s chybou měření. Hodnocení kvality diagnostické metody Validita, reliabilita, normy... 0 Rozporuplné odhady reliability, rozporuplné důkazy validity... Statistické zpracování, CTT, IRT... Různá epistemologická východiska, povaha konstruktu... Různá využití metody... Diagnostické otázky (ne/spolupracující klient, ohrožení validity individuálního vyšetření)... K dispozici je (ideálně) velké množství informací. Jak tedy zhodnotit kvalitu metody? Opakování: Různé přístupy k validitě Tradiční pojetí validity: obsahová, empirická, konstruktová (cronbach & Meehl, 1955). 0 Neposkytuje nejasný rámec pro celkové zhodnocení použitelnosti testu. 0 Přílišné zakotvení „konstruktové validity" v logickém pozitivismu. 0 Kargokultické ztotožnění konstruktové a faktorové validity v praxi. Realistické pojetí Validity (např. Borsboom, 2004, 2009). 0 Nepoužitelné v praxi (ontologický výrok). 0 Neposkytuje vodítka pro hodnocení reálných diagnostických nástrojů. Messickovova unifikovaná konstruktová validita (Messick, i989; 1995). 0 Konstruktivismus, instrumentalismus. 0 Řada dílčích potíží (které se však týkají i tradičního pojetí), viz např. Borsboom (2004, 2009). Unifikovaná konstruktová validita Důraz na hodnocení a použití testu v diagnostice. ° Validita je jediným, multifasetovým konstruktem. ° Validita je integrativním shrnutím dílčích důkazů. ° Integrována ve Standardech pro pedagogické a psychologické testování (AERA, 2014). Zdroje důkazů: ° Obsah testu ° Vnitřní struktura testu 0 Odpověďové procesy ° Souvislost s kritériem ° Konsekvence testování Associations With Other Variables Consequences of Use Test Content Figure 8.1 A Contemporary Perspective of Types of Information Relevant to Test Validity AERA, APA, & NCME. (2014). Standards for Educational and Psychological Testing. American Educational Research Association. Furr, R. M., & Bacharach, V. R. (2014). Psychometrics: An Introduction. Sage. Otázky spojené s Messickovým pojetím validity (Lissitz & Samuelsen, 2007) Znamenají nízké korelace s kritériem skutečně nízkou validitu měření? ° A navíc „posvátná kráva", malý důraz na divergentní validitu. Může být nějaká psychologická nomologická síť dostatečně komplexní a „precizní"? Jak v diagnostické praxi zhodnotit „globální užitečnost" nástroje? Jsou skutečně všechny aspekty důležité při hodnocení metody součástí validity? Mají všechny atributy metody při hodnocení stejnou váhu? Jak souvisí teorie a specifikace konstruktu při konkrétním měření? Pokud je reliabilita podmínkou či součástí validity, proč ji Messick explicitně nezmiňuje? Hodnoceni metody (Lissitz & Samuelsen, 2007) Internal External ^Network (Nomological Impact Validity FIGURE 1. The structure of the technical evaluation of educational testing. Perspective Investigative Focus Theoretical Practical Internal Latent Process Content and Reliability External Nomological Network Utility and Impact i^|ji^_^r^ FIGURE 2. Taxonomy of test evaluation procedures. Lissitz, R. W., & Samuelsen, K. (2007). A Suggested Change in Terminology and Emphasis Regarding Validity and Education. Educational Researcher, 36(8), 437-448. doi:10.3102/0013189x07311286 Lissitz a Samuelsen (2007) Dvě složky hodnocení: ° 1. Realismus: interní (validita, vlastnost testu) ° 2. Instrumentalismus: externí (využitelnost skórů). Přínosy: ° Reliabilita je nedílnou součástí hodnocení (obsahové validity). ° Realistická pozice s pragmatickou složkou hodnocení. ° Reflektivní i formativní konstrukty. ° Díky realistickému pojetí umožňuje hodnotit kvalitu skórování (IRT vs. CTT- co lépe reflektuje latentní proměnnou)? Internal -y Validity External FIGURE 1. The structure of the technical evaluation of educational testing. Lissitz a Samuelsen (2007) „USAcentrismus", model hodnocení není kompletní. ° Autoři jsou z edukativního prostředí; zaměřili si na pedagogické testy. V psychologické praxi budou některé aspekty chybět. Hodnocení norem. Fokus na high-stakes výkonové testy. Hodnocení adaptace do jiného prostředí. Hodnocení počítačových zpráv a výstupů pro klienta. To vše ale vhodně doplňuje recenzní model EFPA. Internal External -y Validity FIGURE 1. The structure of the technical evaluation of educational testing. Hodnocení norem Hodnocení norem Reprezentativnost vzorku vůči populaci. ° Výběrová populace. ° Jak dobře normy reprezentují zamýšlenou populaci? Relevance populace pro klienta. ° Reprezentativnost populace vůči respondentovi (věk, lokální populace). ° Jak moc relevantní je výběrová populace pro respondenta? Relevance populace pro účel vyšetření. ° Jak moc relevantní je výběrová populace pro účel vyšetření? ° Zkreslení, impression management... Výběrová chyba. ° Jak moc velká je normovači chyba? Hodnocení norem Velikost vzorku nemusí souviset s reprezentativitou. Kvótnívs. zcela nahodilý výběr. Věkové normy: způsob konstrukce. SD Chyba průměru: jen ° Ale výrazně vyšší chyba v koncích rozložení! Výběrová chyba se „sčítá" se standardní chybou měření! N = 50 155 145 135 125 115 ^ 105 95 85 75 35 55 45 5 ± expected (true) observed IQ 55 I I I I I I IQ70 IQ85 IQ100 IQ115 IQ 130 IQ 145 : j: Hodnocení norem Velikost vzorku nemusí souviset s reprezentativitou. Kvótnívs. zcela nahodilý výběr. Věkové normy: způsob konstrukce. ° Běžné normy: 2*počet kohort = parametry. ° Kontinuální normy: typicky do 5 parametrů. SD Chyba průměru: jen ° Ale výrazně vyšší chyba v koncích rozložení! Výběrová chyba se „sčítá" se standardní chybou měření! N = 200 155 145 135 125 115 „ 105 w u 95 35 75 55 55 45 expected (true) observed I I I I I I I IQ55 IQ70 IQ86 IQ100 IQ115 IQ130 IQ 145 ; j: Chyba měření a intervaly spolehlivosti Opakování: standardní chyba měření standardní chyba predikce standardní chyba rozdílu Statisticky významný rozdíl Klinicky významný rozdíl MEASUREMENT ERROR https://www.nagwa.com/en/videos/138104137874/ Otázky spojené s chybou měření Respondentovi naměřím výšku 178 cm. Jaké otázky si mohu položit? ° Kolik měří právě teď? ° Kolik bude měřit příště? ° Kolik mu můžu naměřit příště, pokud se jeho výška nezmění? ° Kolik mu musím naměřit příště, abych mohl konstatovat, že se jeho výška změnila? Kromě toho naměřím i jeho hmotnost 65 kg. Jaké další otázky si mohu položit? e „vyssi nez tezsi ? 0 Je „vyšší než těžší" oproti jiným respondentům? Chyba měření Standardní chyba měření: směrodatná odchylka pozorovaných hodnot okolo skutečné úrovně atributu Ilustrace: ° http://fssvm6.fss.muni.cz/height/ Další příklad náhodného samplingu: ° https://www.zoology.ubc.ca/~whitlock/Kingfisher/SamplingNormal.htm 0 https://www.zoology.ubc.ca/~whitlock/Kingfisher/CLT.htm Chyba měření a Cl Rozložení naměřených hodnot je normálně rozložené a definované svým M a SD. Proto, když konstruujeme Cl, musíme vědět: 0 Okolo čeho? Jaký je průměr rozložení? 0 Jak nepřesné? Jaká je směrodatná odchylka rozložení (SE?) Tři klíčové vzorce (z nichž lze vše odvodit) 1. Základní teorém CTT: X — t -\- e 0 X - pozorované, t - pravé skóre a e - chyba. 2. Reliabilita rxxr je podíl vysvětleného rozptylu: r , = — = °^ = i - — xx' ol o} + cre2 ol ° Symbol sigma [o2) označuje rozptyl. 3. Rozptyl součtu dvou náhodných proměnných A+B má rozptyl: °A+B = °A +°B+ 2°AB = °A + °B ± 2rAB°A°B 0 °ab — cov(A,5) - kovariance, rAB - jejich korelace (grafická ilustrace) ° Protože rTe = 0, pak z 1 a 3 vyplývá = + Standardní chyba měření Když rovnici rxxi = 1 —§ vyřešíme pro oe, získáme vzorec standardní chyby měření: Standardní chyba měření 0-2 Když rovnici rxxi = 1 —§ vyřešíme pro oe, získáme vzorec standardní chyby měření: SE = oe= axJl - reliabilita - podíl vysvětleného rozptylu 1f *y> Středová hodnota Chyba se nepohybuje kolem pozorovaného, ale kolem pravého skóre. Jaká je nejpravděpodobnější hodnota pravého skóre při určitém pozorovaném skóre x? O trochu blíže k průměru (protože pravé skóry mají menší rozptyl než pozorované skóry). Regresní model CTT: E(T\x) = rxx-x + (1 - rxx-)Mx 0 E(7|x) : očekávané (expected), nejpravděpodobnější pravé skóre. ° rxx-: reliabilita; „směrnice". 0 Mx : průměrné skóre; (1 — rxx-)Mx je „průsečík". ° Čím větší reliabilita, tím větší vliv pozorovaného skóre a menší vliv průměru (a naopak). Směrodatná odchylka pravého skóre: oT = ->Jrxxtax Chyba měření (v CTT) Takto spočítanou chybu měření mohu použít pro konstrukci intervalu spolehlivosti. Ch = E(X) ± Ziae 0 E(X) = očekávaná hodnota, okolo které interval konstruuji. 0 ae = chyba měření ° zi = kvantil normálního rozdělení Kvantily normálního rozdělení: 95% Cl: z95% = 1,96 90% Cl: z90% = 1,64 ° 80% Cl: z80% = 1,28 ° 68% Cl: z68% = 1,00 Shrnutí: Důležité prvky práce s SE Co je očekávanou hodnotou, okolo které interval konstruuji? ° Pozorované skóre? 0 Odhad pravého skóre? 0 Nula (pro rozdíl dvou skórů)? Jak spočítám chybu pro daný účel/diagnostickou otázku? Jaký odhad reliability nejlépe použijú pro daný účel? Scénář 1: Standardní chyba měření Pokud jsme naměřili pozorované skóre X, jaké jiné alternativní X jsme mohli rovněž naměřit? Slouží pro popis chyby měření a intervalu spolehlivosti jednoho jediného měření. Velikost chyby: Středová hodnota: odhad pravého skóre e(7» = rxx>x + (1 - rxx-)m X Scénář 2: Chyba odhadu pravého skóre Pokud jsme naměřili pozorované skóre X, jaká je chyba odhadu pravého skóre i? Vzorec je stejný, jen namísto SD pozorovaného skóre použijeme odhad SD pravého skóre: Velikost chyby: Středová hodnota: E(T\x) = rxx-x + (1 - rxx-)Mx Někteří autoři tento postup doporučují, ale potíž s interpretací. ° Zajímá nás chyba na škále použité při konstrukci norem. Zpravidla tedy nepoužitelné. ° Nicméně např. WISC-5UK - pro standardizaci na IQ použil právě oT ° Standardizace IQ = 15 + 100 namísto běžného IQ = 15 + 10o Scénář 3: Standardní chyba predikce Naměřil jsem X. V jakém rozsahu bude ležet příští měření, pokud se úroveň atributu nezmění? Zlepšil se klient v terapii?"„Je účinný výukový program?" o Velikost chyby: Opřed ~ <7xA/1 Vxx' „2 Txx, - druhá mocnina (test-retest) reliability 0 jde o úpravu opred = ^|cr| + o^(Ty tedy rozdíl chyby odhadu pravého skóru a chyby měření Středová hodnota = očekávaný skór při retestu: odhad pravého skóre: E(T\x) = rxx-x + (1 - rxx-)Mx Scénář 4: Statisticky významný rozdíl Standardní chyba rozdílu. Rozdíl dvou nezávislých testů jedné osoby; případně rozdíl dvou osob. Jaká je očekávaná odlišnost v měření dvěma testy? 0 „Dosáhla vyššího skóru Anežka nebo Bedřich?" „Je Cyril vyšší nebo těžší?" ° Musí být ve stejných jednotkách. Velikost chyby: Středová hodnota: ° Jde o rozdíl a očekávaný rozdíl je zpravidla žádný rozdíl, proto zpravidla 0. ° To není úplně pravda; pokud raa, ^ rhhl, pak je střední hodnotou E(r'A — t'b) = y/rAA'(A — M) — y]rBBi(B — M), ale výsledek bude velmi podobný. Zanedbejte. ° Pokud jde o měření jediným testem (dvěma testy se stejnou reliabilitou), lze zjednodušit: Scénář 5: Klinicky významný rozdíl Liší se dva skóry téhož respondenta více či méně než u „běžných" respondentů? 0 To, že se skóry liší, neznamená, že se liší více, než bychom čekali u náhodně vybraného člověka. ° Klinické hypotézy: „Rozkolísaný profil schopností...", „Je rozdíl,klinicky' významný?" atd. Příklad: 0 Statisticky významný rozdíl: „Člověk má vyšší váhu než výšku (ve standardních jednotkách, např. IQ skórech)". 0 Klinicky významný rozdíl: „Člověk má vyšší váhu, než by odpovídalo jeho výšce, je tedy obézní." Scénář 5: Klinicky významný rozdíl Více postupů. Nejjednodušší používá pouze korelaci a je zcela shodný s postupem pro chybu predikce. Odhad chyby: °A-B — GAB^ ~ rAB 0 rAB je korelace testů A a B, oAB je směrodatná odchylka obou testů (musí být shodná) Středová hodnota: E(B\A)=rABA + (l-rAB)MAB Scénář 6: Více měření Lze testovat, zda má klient celkově „rozkolísaný profil". 0 Např.: „Lišíse subtesty ve WAIS-III od celkového IQ více, než bychom čekali?" 0 Analogie F-testu u lineární regrese s více prediktory. Poskytují jen některé diagnostické metody, není pravidlem. Technicky vzato není ideální interpretovat „profil", pokud test celkového rozdílu není signifikantní na zvolené p-hladině. Ruční výpočet je příliš náročný. Sčítaní skóru Obecný vzorec pro součet dvou proměnných A a B: °a+b = °a +°b+ lTABGAGB 0 Rozptyl součtu [(JA+B) Je roven součtu rozptylů [oA, oB) a 2 kovariancí [aAB = 2rABoAoB). Korelovat spolu mohou pouze pravé skóry. Chyby měření jsou náhodné a s ničím nesouvisí. Rozptyl testu A cr| = rAA/aA + (1 — rAA/)aA lze rozdělit na: 0 Rozptyl pravého skóre: rAAoA + rBB>al + 2rABoAoB + (1 - r^Vi + (1 - rBB/)aj ° Kde červená část je systematický rozptyl a modrá část chybový rozptyl. Korelace obou subtestů ovlivňuje pouze systematický rozptyl. ° Je-li korelace kladná -> větší část systematického rozptylu, vyšší reliabilita. ° Je-li korelace záporná -> menší část systematického rozptylu, nižší reliabilita. Sčítaní skóru Reliabilita součtu/rozdílu dvou testů je tedy rA±B — TAA' rAA'°l + rBB'°§ ± 2rAB