U|\| T Katedra l\l í psychologie FSS Přednáška 9: Interpretace testových skórů 13. 11. 2023 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler Jak interpretovat testové skóry? Kromě samotných skórů je nezbytné vzít v úvahu další informace. ° Tato přednáška bude o vybraných aspektech důležitých pro jejich interpretaci. Kvalita diagnostické metody. Kvalita norem. Pokročilá práce s chybou měření. Hodnocení kvality diagnostické metody Validita, reliabilita, normy... 0 Rozporuplné odhady reliability, rozporuplné důkazy validity... Statistické zpracování, CTT, IRT... Různá epistemologická východiska, povaha konstruktu... Různá využití metody... Diagnostické otázky (ne/spolupracující klient, ohrožení validity individuálního vyšetření)... K dispozici je (ideálně) velké množství informací. Jak tedy zhodnotit kvalitu metody? Opakování: Různé přístupy k validitě Tradiční pojetí validity: obsahová, empirická, konstruktová (cronbach & Meehl, 1955). 0 Neposkytuje nejasný rámec pro celkové zhodnocení použitelnosti testu. 0 Přílišné zakotvení „konstruktové validity" v logickém pozitivismu. 0 Kargokultické ztotožnění konstruktové a faktorové validity v praxi. Realistické pojetí Validity (např. Borsboom, 2004, 2009). 0 Nepoužitelné v praxi (ontologický výrok). 0 Neposkytuje vodítka pro hodnocení reálných diagnostických nástrojů. Messickovova unifikovaná konstruktová validita (Messick, i989; 1995). 0 Konstruktivismus, instrumentalismus. 0 Řada dílčích potíží (které se však týkají i tradičního pojetí), viz např. Borsboom (2004, 2009). Unifikovaná konstruktová validita Důraz na hodnocení a použití testu v diagnostice. ° Validita je jediným, multifasetovým konstruktem. ° Validita je integrativním shrnutím dílčích důkazů. ° Integrována ve Standardech pro pedagogické a psychologické testování (AERA, 2014). Zdroje důkazů: ° Obsah testu ° Vnitřní struktura testu 0 Odpověďové procesy ° Souvislost s kritériem ° Konsekvence testování Associations With Other Variables Consequences of Use Test Content Figure 8.1 A Contemporary Perspective of Types of Information Relevant to Test Validity AERA, APA, & NCME. (2014). Standards for Educational and Psychological Testing. American Educational Research Association. Furr, R. M., & Bacharach, V. R. (2014). Psychometrics: An Introduction. Sage. Otázky spojené s Messickovým pojetím validity (Lissitz & Samuelsen, 2007) Znamenají nízké korelace s kritériem skutečně nízkou validitu měření? ° A navíc „posvátná kráva", malý důraz na divergentní validitu. Může být nějaká psychologická nomologická síť dostatečně komplexní a „precizní"? Jak v diagnostické praxi zhodnotit „globální užitečnost" nástroje? Jsou skutečně všechny aspekty důležité při hodnocení metody součástí validity? Mají všechny atributy metody při hodnocení stejnou váhu? Jak souvisí teorie a specifikace konstruktu při konkrétním měření? Pokud je reliabilita podmínkou či součástí validity, proč ji Messick explicitně nezmiňuje? Hodnocení metody (Lissitz & Samuelsen, 2007) Internal External ^Network (Nomological Impact Validity FIGURE 1. The structure of the technical evaluation of educational testing. Perspective Investigative Focus Theoretical Practical Internal Latent Process Content and Reliability External Nomological Network Utility and Impact i^|ji^_^r^ FIGURE 2. Taxonomy of test evaluation procedures. Lissitz, R. W., & Samuelsen, K. (2007). A Suggested Change in Terminology and Emphasis Regarding Validity and Education. Educational Researcher, 36(8), 437-448. doi:10.3102/0013189x07311286 Lissitz a Samuelsen (2007) Dvě složky hodnocení: ° 1. Realismus: interní (validita, vlastnost testu) ° 2. Instrumentalismus: externí (využitelnost skórů). Přínosy: ° Reliabilita je nedílnou součástí hodnocení (obsahové validity). ° Realistická pozice s pragmatickou složkou hodnocení. ° Reflektivní i formativní konstrukty. ° Díky realistickému pojetí umožňuje hodnotit kvalitu skórování (IRT vs. CTT- co lépe reflektuje latentní proměnnou)? Internal -y Validity External FIGURE 1. The structure of the technical evaluation of educational testing. Lissitz a Samuelsen (2007) „USAcentrismus", model hodnocení není kompletní. ° Autoři jsou z edukativního prostředí; zaměřili si na pedagogické testy. V psychologické praxi budou některé aspekty chybět. Hodnocení norem. Fokus na high-stakes výkonové testy. Hodnocení adaptace do jiného prostředí. Hodnocení počítačových zpráv a výstupů pro klienta. To vše ale vhodně doplňuje recenzní model EFPA. Internal External -y Validity FIGURE 1. The structure of the technical evaluation of educational testing. Recenze diagnostických metod Recenze diagnostických metod Výzkumná metoda je založena na peer-reviews (články, granty...). Diagnostická metoda je aplikovaným výzkumným výstupem. ° Její kvality je vhodné rovněž kontrolovat = recenzovat. Dvě tradice recenzování: ° Americká: Burosový ročenky (Buros Mental Measurement Yearbooks). 0 Evropská: BPS, E F PA. B u rosový ročenky Vychází každých několik let. Obsahuje veškeré komerčně distribuované metody v anglickém (a španělském) jazyce. ° Dobrovolníci. Všechny metody. ° Recenze se opakují v případě zásadních revizí či nových empirických důkazů. Každá metoda: 2 recenzenti. Recenze jsou narativní s tradiční strukturou. ° Záhlaví (vybrané důležité informace, autoři, distributor aj.). ° Popis testu, jeho určení, cílové populace atp. (nehodnotící, vychází z informací autora). ° Vývoj metody a kvalita technických materiálů (popis s hodnotícím komentářem). ° Technické parametry (kritické zhodnocení na úrovni faktů) = validita, reliabilita, normy... ° Komentář (zhodnocení faktů uvedených výše). ° Shrnutí a závěr s konkrétním doporučením. Literatura, zdroje V knihovně FSS MU: D2-732; D2-732a. EFPA manuál Vychází částečně z recenzního modelu Britské psychologické společnosti. ° Distributor si za recenzi platí, uživatel si kupuje možnost nahlédnout. V ČR implementováno v časopisu Testfórum: w w w.testfo r u m. cz. ° EFPA manuál doplněný o narativní text po vzoru Burosových ročenek. Pevná struktura formuláře. ° Popis: obecný popis, klasifikace, skórování, počítačově-generované zprávy, dodavatel a náklady. ° Zhodnocení: osvětlení teorie, kvalita materiálů, psychometrické parametry (validita, reliabilita a normy), počítačově-generované zprávy. Závěr: závěrečné zhodnocení a doporučení. Zdroje: ° Evers, A. a kol. (2013). Assessing the quality of tests: Revision of the EFPA review model. Psicothema, 25(3), 283-291. https://doi.org/10.7334/psicothema2013.97 ° Urbánek, T. (2010). Stav české psychologické diagnostiky a evropský model recenze testu. Testfórum, 1(1). https://doi.org/10.5817/TF2010-l-l ° EFPA manuál. Hodnocení norem Hodnocení norem Reprezentativnost vzorku vůči populaci. ° Výběrová populace. ° Jak dobře normy reprezentují zamýšlenou populaci? Relevance populace pro klienta. ° Reprezentativnost populace vůči respondentovi (věk, lokální populace). ° Jak moc relevantní je výběrová populace pro respondenta? Relevance populace pro účel vyšetření. ° Jak moc relevantní je výběrová populace pro účel vyšetření? ° Zkreslení, impression management... Výběrová chyba. ° Jak moc velká je normovači chyba? Hodnocení norem Velikost vzorku nemusí souviset s reprezentativitou. Kvótnívs. zcela nahodilý výběr. Věkové normy: způsob konstrukce. SD Chyba průměru: jen ° Ale výrazně vyšší chyba v koncích rozložení! Výběrová chyba se „sčítá" se standardní chybou měření! N = 50 155 145 135 125 115 ^ 105 95 85 75 35 55 45 5 ± expected (true) observed IQ 55 I I I I I I IQ70 IQ85 IQ100 IQ115 IQ 130 IQ 145 : j: Hodnocení norem Velikost vzorku nemusí souviset s reprezentativitou. Kvótnívs. zcela nahodilý výběr. Věkové normy: způsob konstrukce. ° Běžné normy: 2*počet kohort = parametry. ° Kontinuální normy: typicky do 5 parametrů. SD Chyba průměru: jen ° Ale výrazně vyšší chyba v koncích rozložení! Výběrová chyba se „sčítá" se standardní chybou měření! N = 200 155 145 135 125 115 „ 105 w u 95 35 75 55 55 45 expected (true) observed I I I I I I I IQ55 IQ70 IQ86 IQ100 IQ115 IQ130 IQ 145 ; j: Kontinuální normování Tradiční „kohortové" normy: v každé kohorte (např. věkové) konstrukce separátních norem. Nevýhody tradičních norem: ° Malý vzorek uvnitř kohorty -> velká výběrová chyba. ° Velká výběrová chyba -> nestabilita norem napříč kohortami. Např. ročníkové normy po půl roce 5-18 let (14 skupin): 14 X 2 = 28 parametrů (M, SD). ° Při celkové velikosti vzorku N = 1000 jen 71 respondentů/kohorta, tj. 36 respondentů/parametr. Nenormální rozložení skórů u malých vzorků nelze dost dobře řešit. ° Tradiční diskrepanční skóry (IQ apod.) předpokládají normální rozložení. Nutnost normalizace. 0 V případě malého kohortového vzorku nefunguje McCallova plošná transformace. ° Např. se 71 respondenty těžko bude fungovat plošná transformace do 100 percentilových skórů. ° Nutnost vertikálního vyhlazení skórů (například kernell smoothed kumulativní distribuce; ks : : kcde). Kontinuální normování Kontinuální normování využívá celý vzorek pro odhad parametrů populační distribuce v určité kohortě. Kontinuální normy = horizontální vyhlazení testových skórů. Může a nemusí zahrnovat i vyhlazení vertikální. Celá řada různých postupů. Mnoho z těchto postupů využívá běžné „vyhlazovací" procedury. ° loess regrese, kernel smoothing, polynomická regrese, plovoucí průměr a jiné. Kontinuální normování Horizontální vyhlazení parametrů. ° Vytvoření kohort (se shodným n či stejným věkovým rozsahem). ° V rámci každé kohorty odhad populačních parametrů (M, SD). 0 Tyto parametry jsou vyhlazeny napříč kohortami. ° Pro každý cílový věk je pak možné predikovat M a SD a spočítat standardní skór. ° Implementace např. ve WJ-IV (ten využívá ještě rozdílnou SD směrem „nahoru" a „dolů" a bootstraping). Lokálně vážený odhad parametrů. ° Pro každý cílový věk jsou odhadnuty vážené distribuční parametry (M, SD). ° Každému respondentovi je přiřazena váha - čím shodnější věk, tím vyšší, a naopak. ° Váhy mají normální rozložení s M v cílovém věku a zvolenou SD (třeba půl roku). ° Může být velmi nestabilní. Ideálně v kombinaci s bootstrapem. Kontinuální normování Regresní normy. ° Výkon respondenta v testu (DV) je predikován pomocí lineární regrese. ° Prediktory (IV) jsou věk (a jeho případné polynomy), případně další proměnné (pohlaví...). ° Standardizované reziduum = z-skór. ° Časté v klinických metodách. ° Výhoda: parametrické, stačí malý vzorek. Jaké jsou nevýhody? ° Předpoklad stejného rozptylu napříč věkem. ° Podhodnocení v kohortách s malou variabilitou, nadhodnocení v kohortách s velkou variabilitou. Velmi nevhodný postup! Working activity n o iq cm O s - men women linear (together) Nucci, M., Mapelli, D., & Mondini, S. (2012). Cognitive Reserve Index questionnaire (CRIq): a new instrument for measuring cognitive reserve. Aging clinical and experimental research, 24(3), 218-226. https://doi.ora/10.3275/7800 Javůrková,A.; Raudenská, J., Cígler, H., Ježek, S. (unpublished manuscript). Czech adaptation of Cognitive Reserve Index questionnaire (CRIq). Kontinuální normování Další postupy: např. kontinuální normování s využitím Taylorových polynomů. ° Vytvoření kohort a prozatímního standardního skóre (percentil či plošná transformace). ° Předpoklad: hrubé skóre X je funkcí věku či ročníku, a, a standardního skóre /. ° Nalezení normovacích parametrů cst pomocí step-wise lineární regrese. ° Ověření modelu a identifikace vhodných polynomů pomocí cross-validace, různé postupy ověření modelu. Typicky postačuje k < 6, většinou k < 4 (počet parametrů modelu). ° Vertikální i horizontální vyhlazení v rámci jediného postupu. X = f (I, a) ° Vytvoření Taylorových polynomů a normovači funkce x(l, a) jako k s,t=0 Kontinuální normování Velmi jednoduchá implementace v R balíčku cnorm. ° Lenhard, A., Lenhard, W., Suggate, S., & Segerer, R. (2018). A Continuous Solution to the Norming Problem. Assessment, 25(1), 112-125. https://doi.org/10.1177/10731911 16656437 ° K dispozici podrobný návod. ° Využívají testy WJ-IV COG CZ nebo BACH. Work Activity {men) Work Activity (women) I 40 50 60 Explanatory Variable (group) Explanatory Variable (group) Javůrková.A., Raudenská, J., Cígler, H., Ježek, S. (unpublished manuscript). Czech adaptation of Cognitive Reserve Index questionnaire (CRIq). Chyba měření a intervaly spolehlivosti Opakování: standardní chyba měření standardní chyba predikce standardní chyba rozdílu Statisticky významný rozdíl Klinicky významný rozdíl MEASUREMENT ERROR https://www.nagwa.com/en/videos/138104137874/ Otázky spojené s chybou měření Respondentovi naměřím výšku 178 cm. Jaké otázky si mohu položit? ° Kolik měří právě teď? ° Kolik bude měřit příště? ° Kolik mu můžu naměřit příště, pokud se jeho výška nezmění? ° Kolik mu musím naměřit příště, abych mohl konstatovat, že se jeho výška změnila? Kromě toho naměřím i jeho hmotnost 65 kg. Jaké další otázky si mohu položit? e „vyssi nez tezsi ? 0 Je „vyšší než těžší" oproti jiným respondentům? Chyba měření Standardní chyba měření: směrodatná odchylka pozorovaných hodnot okolo skutečné úrovně atributu Ilustrace: ° http://fssvm6.fss.muni.cz/height/ Další příklad náhodného samplingu: ° https://www.zoology.ubc.ca/~whitlock/Kingfisher/SamplingNormal.htm ° https://www.zoologv.ubc.ca/~whitlock/Kingfisher/CLT.htm Chyba měření a Cl Rozložení naměřených hodnot je normálně rozložené a definované svým M a SD. Proto, když konstruujeme Cl, musíme vědět: 0 Okolo čeho? Jaký je průměr rozložení? 0 Jak nepřesné? Jaká je směrodatná odchylka rozložení (SE?) Tři klíčové vzorce (z nichž lze vše odvodit) 1. Základní teorém CTT: X — t -\- e 0 X - pozorované, t - pravé skóre a e - chyba. 2. Reliabilita rxxr je podíl vysvětleného rozptylu: r , = — = °^ = i - — xx' ol (jT2 + ol ol ° Symbol sigma [o2) označuje rozptyl. 3. Rozptyl součtu dvou náhodných proměnných A+B má rozptyl: °A+B = °A +°B+ 2°AB = °A + °B ± 2rAB°A°B 0 °ab — cov(A,5) - kovariance, rAB - jejich korelace (grafická ilustrace) ° Protože rTe = 0, pak z 1 a 3 vyplývá = + Standardní chyba měření Když rovnici rxxi = 1 —| vyřešíme pro oe, získáme vzorec standardní chyby měření: Standardní chyba měření 0-2 Když rovnici rxxi = 1 —| vyřešíme pro oe, získáme vzorec standardní chyby měření: ococ °x SE = oe = axJl - reliabilita - podíl vysvětleného rozptylu 1f *y> Středová hodnota Chyba se nepohybuje kolem pozorovaného, ale kolem pravého skóre. Jaká je nejpravděpodobnější hodnota pravého skóre při určitém pozorovaném skóre x? O trochu blíže k průměru (protože pravé skóry mají menší rozptyl než pozorované skóry). Regresní model CTT: E(T\x) = rxx-x + (1 - rxx-)Mx 0 E(T|x) : očekávané (expected), nejpravděpodobnější pravé skóre. ° rxx-: reliabilita; „směrnice". 0 Mx : průměrné skóre; (1 — rxx-)Mx je „průsečík". ° Čím větší reliabilita, tím větší vliv pozorovaného skóre a menší vliv průměru (a naopak). Směrodatná odchylka pravého skóre: oT = ->Jrxxtax Chyba měření (v CTT) Takto spočítanou chybu měření mohu použít pro konstrukci intervalu spolehlivosti. Ch = E(X) ± Ziae 0 E(X) = očekávaná hodnota, okolo které interval konstruuji. 0 ae = chyba měření ° Zj = kvantil normálního rozdělení Kvantily normálního rozdělení: 95% Cl: z95% = 1,96 ° 90% Cl: z90% = 1,64 ° 80% Cl: z80% = 1,28 ° 68% Cl: z68% = 1,00 Shrnutí: Důležité prvky práce s SE Co je očekávanou hodnotou, okolo které interval konstruuji? ° Pozorované skóre? 0 Odhad pravého skóre? 0 Nula (pro rozdíl dvou skórů)? Jak spočítám chybu pro daný účel/diagnostickou otázku? Jaký odhad reliability nejlépe použijú pro daný účel? Scénář 1: Standardní chyba měření Pokud jsme naměřili pozorované skóre X, jaké jiné alternativní X jsme mohli rovněž naměřit? Slouží pro popis chyby měření a intervalu spolehlivosti jednoho jediného měření. Velikost chyby: Středová hodnota: odhad pravého skóre E(7» = rxx>x + (1 - rxx-)M X Scénář 2: Chyba odhadu pravého skóre Pokud jsme naměřili pozorované skóre X, jaká je chyba odhadu pravého skóre i? Vzorec je stejný, jen namísto SD pozorovaného skóre použijeme odhad SD pravého skóre: Velikost chyby: Středová hodnota: E(T\x) = rxx-x + (1 - rxx-)Mx Někteří autoři tento postup doporučují, ale potíž s interpretací. ° Zajímá nás chyba na škále použité při konstrukci norem. Zpravidla tedy nepoužitelné. ° Nicméně např. WISC-5UK - pro standardizaci na IQ použil právě oT ° Standardizace IQ = 15 + 100 namísto běžného IQ = 15 + 10o Scénář 3: Standardní chyba predikce Naměřil jsem X. V jakém rozsahu bude ležet příští měření, pokud se úroveň atributu nezmění? Zlepšil se klient v terapii?"„Je účinný výukový program?" o Velikost chyby: „2 rxxl - druhá mocnina (test-retest) reliability. 0 jde o úpravu ovred = ^|cr| + tedy rozdíl chyby odhadu pravého skóru a chyby měření Středová hodnota = očekávaný skór při retestu: odhad pravého skóre: E(T\x) = rxx-x + (1 - rxx-)Mx Scénář 4: Statisticky významný rozdíl Standardní chyba rozdílu. Rozdíl dvou nezávislých testů jedné osoby; případně rozdíl dvou osob. Jaká je očekávaná odlišnost v měření dvěma testy? 0 „Dosáhla vyššího skóru Anežka nebo Bedřich?" „Je Cyril vyšší nebo těžší?" ° Musí být ve stejných jednotkách. Velikost chyby: Středová hodnota: ° Jde o rozdíl a očekávaný rozdíl je zpravidla žádný rozdíl, proto zpravidla 0. ° To není úplně pravda; pokud raa, ^ rhhl, pak je střední hodnotou E(r'A — t'b) = y/rAA'(A — M) — y]rBBi(B — M), ale výsledek bude velmi podobný. Zanedbejte. ° Pokud jde o měření jediným testem (dvěma testy se stejnou reliabilitou), lze zjednodušit: Scénář 5: Klinicky významný rozdíl Liší se dva skóry téhož respondenta více či méně než u „běžných" respondentů? 0 To, že se skóry liší, neznamená, že se liší více, než bychom čekali u náhodně vybraného člověka. ° Klinické hypotézy: „Rozkolísaný profil schopností...", Je rozdíl,klinicky' významný?" atd. Příklad: 0 Statisticky významný rozdíl: „Člověk má vyšší váhu než výšku (ve standardních jednotkách, např. IQ skórech)". 0 Klinicky významný rozdíl: „Člověk má vyšší váhu, než by odpovídalo jeho výšce, je tedy obézní." Scénář 5: Klinicky významný rozdíl Více postupů. Nejjednodušší používá pouze korelaci a je zcela shodný s postupem pro chybu predikce. Odhad chyby: °A-B — GAB^ ~ rAB 0 rAB je korelace testů A a B, oAB je směrodatná odchylka obou testů (musí být shodná) Středová hodnota: E(B\A)=rABA + (l-rAB)MAB Scénář 6: Více měření Lze testovat, zda má klient celkově „rozkolísaný profil". 0 Např.: „Lišíse subtesty ve WAIS-III od celkového IQ více, než bychom čekali?" 0 Analogie F-testu u lineární regrese s více prediktory. Poskytují jen některé diagnostické metody, není pravidlem. Technicky vzato není ideální interpretovat „profil", pokud test celkového rozdílu není signifikantní na zvolené p-hladině. Ruční výpočet je příliš náročný. Sčítaní skóru Obecný vzorec pro součet dvou proměnných A a B: °A+B = °A +°B+ lTABGAGB 0 Rozptyl součtu [(JA+B) Je roven součtu rozptylů [oA, oB) a 2 kovariancí [aAB = 2rABoAoB). Korelovat spolu mohou pouze pravé skóry. Chyby měření jsou náhodné a s ničím nesouvisí. Rozptyl testu A aA = rAA/aA + (1 — rAA/)aA lze rozdělit na: 0 Rozptyl pravého skóre: rAA větší část systematického rozptylu, vyšší reliabilita. ° Je-li korelace záporná -> menší část systematického rozptylu, nižší reliabilita. Sčítaní skóru Reliabilita součtu/rozdílu dvou testů je tedy rA±B — TAA' rAA'°l + rBB'°§ ± 2rAB