Validita diagnostického nástroje
PSYb2590: Základy psychometriky | Přednáška 3
13. 3. 2023 | Petr Palíšek a Hynek Cígler
IDS: Co to asi měří?
Validita
Validita výzkumu: platnost výsledků studie vzhledem ke skutečnosti.
Validita diagnostické metody: několik různých pojetí závislých na
čase / filosofické pozici autorů
Validita
Validita výzkumu: shoda mezi interpretací výsledků studie a
skutečností
Validita diagnostické metody: několik různých pojetí závislých na
čase / filosofické pozici autorů
Obecně: shoda mezi interpretací výsledků testování a skutečností
Vývoj pojmu validity
Konverzace různých směrů uvažování a různých stadií vývoje psychologie
Operacionalisté/antirealisté: Výsledky validního testu korelují s kritériem (např. výsledky
inteligenčního testu predikují pracovní výkon)
Logičtí pozitivisté: Výsledky validního testu mají odpovídat teoretickým očekáváním („zákonům“)
Konstruktivisté: Validita výsledků testu je tvořena v interakci testu a interpretujícího – klíčová je
tak validní interpretace
Realisté: Test má měřit skutečný atribut. Validní je tedy takový test, který měří existující
konstrukt.
Historie konceptu validity testu 1
Okolo roku 1915 pojem validity ve smyslu prediktivní validity.
◦ „Here I am distinguishing between two different but related ideas namely, reliability and
validity. An instrument of measurement is reliable to the extent that it yields the same results
at different times and in the hands of different persons. It is valid to the extent that it
measures the thing it is supposed to measure.“ (Buckingham, 1921).
Kodifikace ve třicátých letech (Thurstone, 1931; Guilford, 1936), důraz na
souběžnou validitu.
◦ A na obsahovou (výběrovou) validitu.
Validita byla používána ve smyslu „korelace“ (s kritériem), nový test měl
korelovat s předchozím testem.
◦ Test IQ1 dostatečně koreluje s kritériem K. Nový test IQ2 dostatečně koreluje s původním testem IQ1.
Novější test IQ3 dostatečně koreluje s IQ2. Nejnovější IQ4 se starším IQ3. Co měří test IQ4?
Podle Lissitz a Samuelsen (2007).
Historie konceptu validity testu 1
Validita byla používána ve smyslu „korelace“ (s kritériem), nový test měl
korelovat s předchozím testem.
◦ Test IQ1 dostatečně koreluje s kritériem K. Nový test IQ2 dostatečně koreluje s původním testem IQ1.
Novější test IQ3 dostatečně koreluje s IQ2. Nejnovější IQ4 se starším IQ3. Co měří test IQ4?
Jaké to má výhody / nevýhody?
Podle Lissitz a Samuelsen (2007).
Validita
Doba precronbachovská: „Validní test dostatečně koreluje s kritériem“ – např. test inteligence
koreluje s jiným testem inteligence
Historie konceptu validity testu 2
Navazující autoři (Thorndike, Guilford) vyvíjí nové „druhy“ validity:
Obsahová validita
Prediktivní validita (korelace s kritériem, které následuje po testování)
Souběžná validita (korelace s kritériem měřeným zároveň s testováním)
Později sumarizováno Cronbachem a Meehlem, kteří ke zbytku přidávají také:
Konstruktovou validitu
1 Nebo lépe viz Cronbach a Meehl (1955)
Historie konceptu validity testu 2
Cronbach a Meehl (1955): Construct Validity in Psychological Tests.
◦ Navázali např. Campbell a Fiske (1959) s metodou Multitrait-multimethod matrix (MTMM).
Konstruktová validita: S měřeným atributem jsou spojené hypotézy o očekávaných
souvislostech s jinými proměnnými. Pokud jsou s nimi naše pozorování v souladu, pak
nejspíš měříme to, co myslíme, že měříme.
Co by bylo argumentem pro konstruktovou validitu testu fluidní inteligence?
Co u nástroje měřícího preferenci intuitivního myšlení?
Co u nástroje měřícího religiozitu?
1 Nebo lépe viz Cronbach a Meehl (1955)
Historie konceptu validity testu 2
Vychází z logického pozitivismu.
◦ Existuje nomologická síť1 teoretických konstruktů, které jsou vzájemně propojeny.
◦ Tyto konstrukty jsou operacionalizovány do pozorování (testem).
◦ Odpovídají pozorované vztahy těchto operacionalizací (testů) teoretickým vztahům
(konstruktů) tak, jak odpovídá uvažované nomologické síti?
◦ Konstrukt je tedy definován implicitně – vztahy s jinými entitami
Jde tedy o snahu nejprve formulovat hypotézy plynoucí z teorie měřeného
konstruktu, a následně jejich otestování.
Testování konstruktové validity má proto velmi blízko k tradičnímu
„nepsychometrickému“ výzkumu
1 Nebo lépe viz Cronbach a Meehl (1955)
Validita
Doba precronbachovská: „Validní test dostatečně koreluje s kritériem“ – např. test fluidní
inteligence koreluje s jiným testem fluidní inteligence
Konstruktová validita: „Validní test generuje taková pozorování, která odpovídají teorii“ – např.
test inteligence příliš nekoreluje se školními znalostmi a naopak přiměřeně silně koreluje s testy
paměti nebo prostorových schopností
Historie konceptu validity testu 3
Messick (zejm. 1989, 1995) vytvořil zastřešující pojetí konstruktové
validity (unified construct validity).
◦ Toto pojetí je dnes dominantní, převzaly jej i Standardy pro pedagogické a
psychologické testování (AERA, APA, NCME, 1999/2014) a moderní učebnice
psychometriky
Vychází z konstruktivismu
Historie konceptu validity testu 3
Validita je integrativním shrnutím
dílčích důkazů.
Podstatné je hodnocení a použití
testu = validní interpetace.
Validita tak není vlastností testu, ale
jeho používání (jako je motyka různě
validní pro různá užití)
Zdroje důkazů podle Messicka:
◦ Obsah testu
◦ Vnitřní struktura testu
◦ Odpověďové procesy
◦ Souvislost s kritériem
◦ Konsekvence testování
◦ (Zobecnitelnost a „šíře významů“.)
Messick 1
1. OBSAHOVÁ RELEVANCE
Odpovídá obsah testu účelu?
Nechybí něco, nepřebývá něco, co by podle
teorie (ne)mělo být součástí testu?
Byl dobrý způsob tvorby položek?
De facto výběrová validita.
2. VNITŘNÍ STRUKTURA TESTU
Odpovídá faktorová struktura očekávání na
základě teorie?
◦ Dříve tzv. faktorová validita jako součást validity
obsahové.
Je pozorovaná faktorová struktura shodná
s tou zamýšlenou?
Někdy zahrnuje i zvážení vnitřní konzistence.
◦ Je vnitřní konzistence/reliabilita taková, jaká by
měla být?
Messick 2
3. ODPOVĚĎOVÉ PROCESY
Volí při odpovídání respondent takové
kognitivní procesy, které by na základě teorie
volit měl?
Neintervenuje nějaký externí systematický
rozptyl?
◦ Odpověďový styl, sociální žádoucnost.
Rorschach, projektivní testy...
Rozumí respondent položkám?
4. SOUVISLOST S DALŠÍMI PROMĚNNÝMI
De facto původní pojetí konstruktové validity
podle Cronbacha a Meehla (1955).
Souhrn důkazů konvergentní a divergentní
validity, zařazení skórů do nomotetické sítě.
Úzce souvisí s tradičním pojetím empirické
validity.
Messick 3
5. KONSEKVENCE TESTOVÁNÍ
Úzce souvisí s férovostí testování.
◦ Nezvýhodňují přijímací zkoušky muže na úkor
žen? Majoritu na úkor Romů?
Culture-free testing.
Nejsou výsledky testování zneužitelné?
◦
Messick: Konsekvence testování
Lissitz (2009): Ilustrativní příklad.
◦ Máme běžný test školní zralosti, který dobře predikuje neúspěch v prvním ročníku.
◦ Dítě, které jej nezvládne, není školně zralé. Předpokládáme, že jde o zpožděný vývoj.
◦ A tedy předpokládáme, že díky odkladu školní docházky dítě své vrstevníky „dožene“.
◦ Co když ale dítě pochází ze znevýhodněného, nepodnětného prostředí?
◦ Vývoj tedy není zpožděný pomalejším zráním, ale nedostatečnými příležitostmi k učení.
◦ Odklad potíže naopak prohloubí, protože dítě v nepodnětném prostředí zůstane i nadále.
◦ Test validně odliší školně zralé a nezralé děti. Naše rozhodnutí na základě validních
výsledků již validní není, konsekvence testování neodpovídají našim cílům.
Kauza D. H. a ostatní versus ČR (2007): Reálný tuzemský příklad [1, 2].
Validita
Doba precronbachovská: „Validní test dostatečně koreluje s kritériem“ – např. test fluidní
inteligence koreluje s jiným testem fluidní inteligence
Konstruktová validita (Cronbach+Meehl): „Validní test generuje taková pozorování, která
odpovídají teorii“ – např. test inteligence příliš nekoreluje se školními znalostmi a naopak
přiměřeně silně koreluje s testy paměti nebo prostorových schopností
Unifikovaná konstruktová validita (Messick): „Validní test generuje validní interpretace.
Poznáme je např. tak, že respondentům neškodí nebo že vychází z dobré reprezentace měřeného
konstruktu“
Historie konceptu validity testu 4
V posledních 30 letech probíhá další vývoj v souvislosti s modelbased
psychometrikou.
◦ Borsboom, Michell a jiní. Borsboom se kriticky vymezuje vůči pojetí
konstruktové validity.
◦ Nová, zastřešující pojetí (např. Lissitz a Samuelsen, 2007).
Validita
Doba precronbachovská: „Validní test dostatečně koreluje s kritériem“ – např. test fluidní
inteligence koreluje s jiným testem fluidní inteligence
Konstruktová validita (Cronbach+Meehl): „Validní test generuje taková pozorování, která
odpovídají teorii“ – např. test inteligence příliš nekoreluje se školními znalostmi a naopak
přiměřeně silně koreluje s testy paměti nebo prostorových schopností
Unifikovaná konstruktová validita (Messick): „Validní test generuje validní interpretace.
Poznáme je např. tak, že respondentům neškodí nebo že vychází z dobré reprezentace měřeného
konstruktu“
Realistické pojetí validity (Borsboom): „Validní test měří (1) existující konstrukt a (2) variabilita v
tomto konstruktu způsobuje validitu v testových skórech“
Jeden kurz, tři pojetí validity
Psychometrikové se nedokážou shodnout na jediném pojetí
validity. Je potřeba znát všechny.
A. Základní „druhy“ validity...
◦ Obsahová a empirická; další klíčové pojmy.
... + tradiční pojetí konstruktové validity.
◦ K předchozím přidává ještě konstruktovou validitu, dohromady
jde o tradiční pohled na validitu.
◦ Cronbach a Meehl (1955).
B. Moderní pojetí unifikované konstruktové validity.
◦ Messick (1989, 1995).
C. Moderní pojetí vycházející z realismu („model-based“).
Tradiční pojetí: Tři zdroje důkazů
Obsahová validita: Shoda mezi metodou a účelem metody (v teoretické rovině).
◦ Zjevná, zdánlivá, výběrová, obsahová, faktorová...
Empirická validita: Shoda mezi výsledkem testu a vnějším kritériem.
◦ Konvergentní, divergentní (diskriminační, diferenciální).
◦ Souběžná, prediktivní (dříve samostatná oblast důkazů), postdiktivní.
◦ Kriteriální.
◦ Někdy synonymum pro empirickou v., jindy termín pro empirickou validitu s kategorickým/objektivním kritériem.
◦ Inkrementální.
Konstruktová validita: shoda metody s latentními konstrukty postulovanými teorií.
◦ Zaměřená na latentní proměnné (strukturní modelování, MTMM), faktorová analýza.
◦ Flexibilní kladení a zodpovídání otázek vyplývajících z účelu metody a teorie.
Moderní pojetí
Messick (1989, s. 20): „... an integrated evaluative judgment of the
degree to which empirical evidence and theoretical rationales
support the adequacy and appropriateness of inferences and actions
based on test scores or other modes of assessment.“
◦ Validita je hodnocení testu (proto i např. konsekvenční validita, viz později).
Borsboom (2004): „A test is valid for measuring an attribute if (a) the
attribute exists and (b) variations in the attribute causally produce
variation in the measurement outcomes.“
◦ Validita je vlastnost testu, kterou hodnotíme.
Borsboomova kritika Messickova pojetí 1
„How construct validity is sold:
Construct validity is an evaluative, integrated judgement of
the degree to which test score interpretations are justified
in the light of empirical evidence and theoretical rationales
(and, possibly, social consequences that follow from test
use).“
Borsboom (n.d.)
Borsboomova kritika Messickova pojetí 2
„What construct validity really is:
Somebody’s evaluative, integrated and fluctuating
judgement of the degree to which test score
interpretations, that may have nothing to do with
measurement, are justified in the light of time-dependent
empirical evidence and that person’s theoretical rationales
(and, possibly, that person’s guesses about social
consequences that follow from test use as well as his or her
valuation of these outcomes).“
Borsboom (n.d.)
Messick vs. Borsboom
MESSICK
„Psychodiagnostické pojetí“.
Validita je zhodnocením shody
nástroje a účelu diagnostiky.
Validita zahrnuje externí aspekty
diagnostiky včetně důsledků měření.
Zaměření na použití metody
v praktickém kontextu.
Konstruktivismus.
BORSBOOM
„Ontologické pojetí“.
Validita je shoda nástroje a měřeného
atributu.
Externí aspekty měření a důsledky
diagnostiky nejsou součástí konceptu.
Zaměření na to, co je měřeno. Kontext
je důležitý, ale nejde o validitu.
Realismus.
Validita je tedy odpověď na otázku:
(Borsboom a podlézavě i Cígler)
„Je naše teorie o odpovídání lidí správná?“
Dvě dílčí odpovědi:
◦ Existuje atribut?
◦ V operacionalistické CTT pravý skór (ne)existuje vždy; CTT je celkově vadný model měření. Preference FA, IRT při
validizaci.
◦ Měří metoda tento atribut?
Pod souhrnný pojem „validita“ jsou nicméně často řazeny odpovědi na další
důležité otázky:
◦ Predikuje test chování osob v budoucnu?
◦ Je použití testu eticky a legálně obhajitelné?
◦ Slouží použití testu zamýšlenému účelu?
Validita měření extraverze
1. Jak by ji prokazoval psycholog na začátku 20. století?
Validita měření extraverze
1. Jak by ji prokazoval psycholog na začátku 20. století?
2. Jak by postupoval Cronbach?
Validita měření extraverze
1. Jak by ji prokazoval psycholog na začátku 20. století?
2. Jak by postupoval Cronbach?
3. Co by zajímalo Messicka?
Validita měření extraverze
1. Jak by ji prokazoval psycholog na začátku 20. století?
2. Jak by postupoval Cronbach?
3. Co by zajímalo Messicka?
4. Jak by uvažoval Borsboom?
Vybrané
pojmy
a problémy
spojené
s konceptem
validity
Následují výhradně vybraná témata.
Pro celkový přehled je nezbytné
samostudium.
Zdroje „nevalidity“
PODREPREZENTOVÁNÍ KONSTRUKTU
Metoda neměří požadovaný
konstrukt v celé šíři.
Důležité aspekty konstruktu
nejsou metodou zachyceny.
Typickým důsledkem je
psychometrický paradox.
KONSTRUKTOVĚ-IRELEVANTNÍ ROZPTYL
Metoda měří i něco
jiného/dalšího.
Část rozptylu skórů je způsobena
něčím jiným.
Např.: Odpověďový styl
respondentů, kulturní/jazykové
rozdíly (DIF, non-invariance)...
Nomologická síť
Klíčový aspekt konstruktové validity podle Cronbacha a Meehla (1955).
◦ Zařazení významu metody do sítě veškerých možných jiných významů.
Součásti a aspekty nomologické sítě:
◦ 1. Na základě teorie předpokládáme existenci několika konstruktů.
◦ 2. Teorie předpokládá vztahy těchto konstruktů (kauzální?).
◦ 3. Operacionalizace konstruktů do měřicích nástrojů (korespondence).
Operacionalizované proměnné by měly odrážet vztahy konstruktů.
◦ Pokud ne, metoda není validní, nebo je teorie neplatná.
Postupy: Multitrait-Multimethod Matrix (Campbell a Fiske, 1959), SEM model.
Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin 56(2). http://dx.doi.org/10.1037/h0046016
http://www.socialresearchmethods.net/kb/mtmmmat.php
PřevzatopodleCampbellaFiske(1959)
Faktorová validita
Příklad: Normativní styl identity (část Berzonskeho inventáře ISI):
◦ R = ability to achieve closure
◦ K = potřeba jednat ve shodě s ostatními
◦ O = potřeba jednat ve shodě se svým přesvědčením
Převzato od Honzy Širůčka (publikováno?)
Inkrementální validita
Máme dva testy (T1, T2) a kritérium (K), které chceme predikovat.
„Zlepšuje souběžné použití T1 a T2 predikci K oproti použití pouze T1?“
◦ Např.: „Přijímací zkoušky na FSS: Přispívá test ze ZSV k predikci úspěšnosti u bc. státnic oproti
predikci na základě pouze OSP?“
Metoda 1: Parciální korelace.
◦ Koreluje spolu T2 a K po kontrole T1?
◦ Koreluje spolu unikátní rozptyl T2 a K, který
není společný s T1?
Metoda 2: Hierarchická lineární regrese.
◦ Krok 1: K ← T1; R2 vysvětleného rozptylu.
◦ Krok 2: K ← T1 + T2; R2 + ΔR2 vysvětleného rozptylu.
◦ ΔR2 je ukazatelem inkrementální validity. Zvýší přidání metody T2 vysvětlený rozptyl kritéria K?
T1
T2
C
D F
E
G
K
A B
𝑟𝑇1 𝐾|𝑇2
=
𝑟𝑇1 𝐾 + 𝑟𝑇1 𝑇2
𝑟𝑇2 𝐾
1 − 𝑟𝑇1 𝑇2
2
1 − 𝑟𝑇2 𝐾
2
=
=
𝐷
𝐷 + 𝐴
𝑟𝑇1 𝐾 =
𝐷 + 𝐺
𝐷 + 𝐺 + 𝐶 + 𝐹
=
=
𝐷 + 𝐺
𝐷 + 𝐺 + 𝐴 + 𝐸
Obtíže s kritériem: Nereliabilita
Kritérium, které používáme pro validizaci, není většinou zcela
reliabilní (viz attenuation formula).
Dochází k podhodnocení validity.
◦ Z toho důvodu preference SEM modelů, které odhadují přímo vztah latentních
proměnných.
V některých případech ale může (ne)reliabilita nadhodnotit odhad
kriteriální validity, např. parciální korelace, inkrementální validita.
◦ Nová metoda zvyšuje predikci, ale může vést k výzkumně vadným závěrům.
Obtíže s kritériem: Nereliabilita
Vztah počtu utonutí a prodeje zmrzliny (na základě prodeje zmrzliny
predikujeme, kolik lidí se ten den utopí po kontrole teploty).
◦ Westfall a Yarkoni (2016).
Obtíže s kritériem: Distribuce
Zejména při ověřování prediktivní validity často pozorujeme efekt stropu či
podlahy.
◦ Na základě testu je přijato 200 studentů z 1000 uchazečů o studium na VŠ.
◦ U těchto 200 studentů je ověřena prediktivní validita testu vůči prospěchu na konci 1. ročníku.
Efekt stropu/podlahy snižuje rozptyl a tedy pozorované korelace: validita je
podhodnocena.
◦ Existuje řada postupů pro korekci těchto efektů.
Může docházet ke zdánlivým korelacím.
Omezení rozptylu (efekt stropu/podlahy)
The correlation in the full
sample of applicants (a) is
larger than the correlation
in the incumbents
(b) due to range restriction:
The variances of X1, X2 and
Y are restricted
Zimmerman a kol. (2017)
Thorndikeovy rovnice.
V češtině např. dizertace
Viktorové (2018).
Kompenzatorní efekt
a) Scattergram of X1 and X2. 20%
of 1000 applicants are selected
by the sum of X1 and X2; the
circular cloud representing all
applicants is divided by a
diagonal line that separates the
top right area from the bottom
left area.
b) This generates a negative
correlation between X1 and X2 in
the incumbents (𝑟𝑥1 𝑥2|𝑖 =
− 0,71). Residuals of X1 after
the linear effect of X2 is
removed. They are expressed as
deviations from the regression
line: The residuum of X1 when
the influence of X2 is removed is
the observed X1 value minus the
expected value of the regression
X1 on X2.
Zimmerman a kol. (2017)