Přednáška 7–8:
Teorie odpovědi na položku
30. 10. a 6. 11. 2023 | PSYn4790 | Psychometrika: Měření v psychologii
Katedra psychologie, Fakulta sociálních studií MU
Hynek Cígler | hynek.cigler@mail.muni.cz
Přímé a nepřímé měření:
Extenzivní vs. intenzivní veličiny
Extenzivní veličina: samotný atribut je aditivní.
◦ 3 cm + 5 cm = 8 cm.
◦ Rozdělením celku vzniknou části. Součet míry jejich atributů je roven původnímu celku.
◦ Umožňuje přímé měření srovnáním s etalonem, např. přiložením pravítka.
◦ Délka, hmotnost, objem, elektrický odpor, Δt.
Intenzivní veličina: atribut aditivní není, ale má kvantitativní povahu.
◦ 200 K + 50 K ≠ 250 K.
◦ Každá část rozděleného celku bude mít stejnou míru atributu jako původní celek.
◦ Nelze „přiložit“ měřicí nástroj; umožňuje pouze nepřímé měření.
◦ Campbel (1940): kvalita, nikoli kvantita předmětu.
◦ Hustota, teplota, tlak.
Přímé a nepřímé měření:
Koordinační funkce
Funkce, která prováže pozorování s atributem.
Přímé měření: zpravidla jednoduchá lineární funkce 𝐿 = 𝑓 𝐼 = 𝑥 ∙ 𝛿𝐼 + 𝐼0
◦ 𝑥 – naměřená hodnota; 𝛿𝐼 – jednotka; 𝐼0 – referenční bod
Nepřímé měření: funkce využívající zpravidla více přímých a nepřímých veličin.
◦ Jen zřídka je lineární.
◦ Např. hustota: 𝜌 = 𝑓 𝑚, 𝑉 =
𝑚
𝑉
Dva hlavní cíle při vývoji exaktního měření v psychologii na přelomu
19./20. století:
◦ 1. Vytvořit koordinační funkci.
◦ 2. Stanovit dostatečně spolehlivou jednotku, resp. referenční bod (kalibrace).
Počátky měřicích škál
Kategorické či ordinální pozorování bylo nutné provázat s domnělým kvantitativním, spojitým,
intervalovým rysem.
Vizuální analogová škála (Hayes a Patterson, 1921).
◦ Apriori předpokládaná lineární koordinační funkce neobstála.
Metoda stejně se jevících intervalů (Thurstone, 1928).
◦ Namísto volby vhodné koordinační funkce využil předběžnou kalibraci podnětového materiálu tak, aby mohl
výslednou funkci považovat za lineární.
◦ Pět různých modelů měření.
◦ Law of Comparative Judgement – vychází z Weberova-Fechnerova zákona.
Likertova škála (1932). Pragmatický přístup:
◦ Metoda sigma: Kalibraci na základě předpokladu normálního rozložení ve výzkumném souboru.
◦ „Jednodušší“ metoda: Z důvodu prakticky perfektní korelace začala být preferovaná.
Počátky měřicích škál
Guttmanova škála (1944, 1950).
◦ Úzce vychází z Boggardovy škály sociální
distance (1924).
◦ Seřazená série jednodimenzionálních
úkolů.
◦ Za dodržení předpokladů je ale výsledek
stále ordinální, nikoli intervalový.
Další postupy.
◦ Např. Q-sort a Q-řazení a další.
Accepts
Immig.
in
Country
Accepts
Immig.
in Town
Accepts
immig.
in
Neigbor
hood
Accepts
Immig.
Next
Door
Accepts
Immig.
as
Spouse
Celkové
skóre
0 0 0 0 0 0
1 0 0 0 0 1
1 1 0 0 0 2
1 1 1 0 0 3
1 1 1 1 0 4
1 1 1 1 1 5
Jde o měření? | Likertova škála
Rosenber Self-Esteem Scale
(první 4 položky)
souhlasím
spíše
souhlasím
spíše
nesouhlasím
nesouhlasím
Jsem se sebou vcelku spokojený/spokojená. 3 2 1 0
Občas si myslím, že jsem k ničemu. 0 1 2 3
Cítím, že mám řadu dobrých vlastností. 3 2 1 0
Cítím, že toho není mnoho, na co bych u
sebe mohl/mohla být hrdý/hrdá. 0 1 2 3
Celkový skór: suma počtu bodů z dílčích položek.
Jde o měření? | Měření pozornosti
Celkový skór 1: Počet prvků/řádků za jednotku času.
Alternativní skór 1: Čas průchodu testem.
Celkový skór 2: Počet chyb.
Test pozornosti d2
Postupujte po řádcích a
zaškrtněte všechna „d“
s 2 značkami nad nebo
pod písmenem.
https://commons.wikimedia.org/wiki/File:D2-Test.jpg
Měření v rámci CTT
Dotazník pro pacienty s anorexií
(př. Bond & Fox, 2009):
◦ 1. Pravidelně zvracím, abych si udržel/a svou váhu.
◦ 2. Počítám gramy tuku na jídle, které jím.
◦ 3. Tvrdě cvičím, abych spálil/a kalorie.
Odpovědi: nesouhlasím (1), spíše nesouhlasím (2),
tak napůl (3), spíše souhlasím (4), souhlasím (5)
◦ rxx' = 0,75; M = 3; SD = 3;
◦ SE = 1,5, 𝐶𝐼95% = 2,94
otázka respondent 1 respondent 2
1
spíše
nesouhlasím (2)
souhlasím (5)
2
spíše
souhlasím (4)
souhlasím (5)
3 souhlasím (5) nesouhlasím (1)
hrubý
skór:
11 11
◦ CTT: oba lidé mají z hlediska CTTstejný hrubý skór, a tedy i míru anorexie i intervaly spolehlivosti.
◦ IRT: výsledky nejsou rovnocenné – jiný „person-fit“ (1PL), případně i chyby měření a skóry (2PL).
(6,06–11,94) (6,06–11,94)
Příklad: Nezávislost měření na nástroji
TIM3–5: Test pro identifikaci matematicky nadaných dětí
◦ Test je velmi obtížný, aby dobře měřil nadprůměr.
◦ rxx‘ = 0,82; M = 8,51; SD = 6,72; min = 0; max = 33
◦ Předpoklad: Rozložení matematických schopností je v populaci normálně rozložené.
◦ Závěr: Jaké budou naměřené skóry?
0
10
20
30
40
50
60
70
0 3 6 9 12 15 18 21 24 27 30 33 36
Rozložení hrubých skórů (CTT)
0
5
10
15
20
25
30
35
40
45
-1,3 -1 -0,7 -0,4 -0,1 0,2 0,5 0,8 1,1 1,4 1,7 2 2,3 2,6
Rozložení standardizovaných skórů (CTT)
0
5
10
15
20
25
30
35
40
45
-5,01 -4,41 -3,81 -3,21 -2,61 -2,01 -1,41 -0,81 -0,21 0,39 0,99 1,59 2,19 2,79 3,39 3,99 4,59
Rozložení IRT odhadů
Jak by vypadalo rozložení u testu, měřícího deficit (dyskalkulie...)?
Měření v rámci CTT je vždy vztaženo k měřícímu nástroji.
Měření v rámci IRT je (více méně) na nástroji nezávislé.
Kolmogorův-Smirnovův test
(MC, p-value)
ročník
3
(n = 243)
4
(n = 276)
5
(n = 278)
hrubé
skóre
<0,001 0,001 0,001
W-skóre <0,001 0,065 0,061
Příklad: Nezávislost měření na nástroji
Vývoj teorií odpovědi na položku
50. a 60. léta, další rozvoj v 80. letech (počítače).
Nezávisle na sobě G. Rasch (matematik), F. M. Lord
(psycholog, psychometrik) a P. F. Lazarsfeld (sociolog).
Jde o stochastickou úpravu původně deterministického
Guttmanova modelu.
Tři hlavní stádia vývoje:
◦ Předchůdci, do 50. let (Binet, Guttman, Thurstone...)
◦ Raný vývoj, 50.–60. léta (Rasch, Novick, Lord...)
◦ Rozvoj, 70.–80./90. léta (Bock, Samejima...)
◦ Sjednocování a zobecňování (od 90. let)
Paul Felix Lazarsfeld
(1901–1976)
Louis Guttman
(1916–1987)
Frederic M. Lord
(1912–2000)
van der Linden, W. J. (2016). Introduction. In W. J. van der Linden (ed.), Handbook of Item Response Theory, vol. 1: Models, pp. 1–10. Boca Raton: CRC Press.
Extrémní příklad
Máme položku
ve faktorové analýze
◦ Skórovaná ne=0,
tak napůl=1, ano=2.
◦ Průsečík (intercept): b = 1.
◦ Faktorový náboj: λ = 0,5.
Faktor má průměr 0 (SD=1).
E 𝑥𝑖𝑝 = 𝜆𝑖 𝜃 𝑝 + 𝑏𝑖
Jaká je očekávaná odpověď, E(xi),
respondenta s hodnotou faktoru...
... θ = 0 ?
◦ E(xi) = 1
... θ = 1 ?
◦ E(xi) = 1,5
... θ = -1 ?
◦ E(xi) = 0,5
... θ = 2 ?
◦ E(xi) = 2
... a konečně θ = 3 ?
◦ E(xi) = 2,5
Jaký je vztah měřeného rysu
a odpovědi na binární položku
(správně/špatně)?
Například vztah „fluidní inteligence“ a správné/špatné odpovědi
na jednu úlohu v Ravenových progresivních matricích.
Základy IRT:
Charakteristická funkce položky (ICC)
Výkon probanda v položce lze odhadnout
pomocí množiny latentních rysů.
◦ Schopnosti respondenta.
◦ Parametry položek.
Item Characteristic Curve (ICC):
◦ Má (zpravidla) přibližně tvar kumulativního normálního
rozdělení.
◦ Popisuje vztah mezi schopností probandů a
očekávaným výkonem v dané položce.
◦ Pravděpodobnost správné odpovědi podle parametrů
položky a probanda.
◦ Tvar ale může být prakticky libovolný (různé modely).
Srovnání modelů měření (Borsboom, 2005)
KLASICKÁ TESTOVÁ TEORIE
Měřený atribut: Pravý skór daného
člověka v daném testu.
Lineární vztah pravého a
pozorovaného skóre.
Homoskedasticita
◦ Stejný chybový rozptyl pro všechny
respondenty a všechny úrovně pravého
skóre
MODELY S LATENTNÍMI PROMĚNNÝMI
Měřený atribut: Předpokládaný
latentní rys.
Faktorová analýza
◦ Lineární vztah pozorované odpovědi a
latentního rysu.
◦ Homoskedasticita reziduí.
Teorie odpovědi na položku
◦ Nelineární (zpravidla logistický) vztah
pozorované odpovědi a latentního rysu.
FA jako specifický příklad IRT
FA lze chápat jako specifický případ IRT.
◦ Charakteristická funkce (vztah odpovědi a rysu) je lineární.
◦ Mellenbergh, G.J. (2016). Models for Continuous Responses. In W.J. van der Linden (ed.), Handbook of Item Response Theory (vol. 1), 181-192. Chapman and Hall/CRC Press.
FA „váží“ odpovědi.
◦ V předchozím příkladu s anorexií by obě dívky měly odlišný odhad faktorového skóru.
Někdy totiž lze lineární vztah předpokládat.
◦ Např. hierarchická struktura v CHC, kdy „položkou“ je celý „subtest“.
◦ Např. reakční časy (jsou-li dostatečně dlouhé a normálně rozložené – nebo logaritmizované).
◦ Jiné dostatečně „jemné“ položky (jsou-li normálně rozložené).
Nedodržení předpokladu linearity ale působí řadu obtíží.
◦ Vícedimenzionalita, zejm. tzv. „difficulty factor“ v inteligenčních testech (McDonald, 1965; ten Berge, 1972).
FA jako specifický příklad IRT
Faktorová analýza je „limited information estimator“.
◦ Pro odhad využívá kovarianční (korelační) matici – má tedy informaci pouze o bivariačních vztazích
položek, nikoli originální data.
◦ V případě ordinální FA bivariační frekvenční tabulky.
◦ Chybějící informace o bivariačních vztazích je zásadní překážka.
◦ Výhoda: lze snadno estimovat velké množství faktorů.
IRT je „full information approach“.
◦ Estimace probíhá přímo nad zdrojovými daty.
◦ Chybějící bivariační informace není problém a nezkresluje odhady parametrů modelu.
◦ Nevýhoda: Výpočetní náročnost exponenciálně roste s počtem faktorů, velký počet dimenzí je problém.
Někdy se proto pro IRT používá termín „item-factor analysis“.
Jednoparametrový Raschův model (1PL)
Logistický vztah rysu a odpovědi:
𝑃 𝑥𝑖 = 1 𝜃 =
𝑒 𝜃−𝑏 𝑖
1 + 𝑒 𝜃−𝑏 𝑖
Analogicky po úpravě:
ln
𝑃𝑖𝑝
1 − 𝑃𝑖𝑝
= 𝜃 𝑝 − 𝑏𝑖
◦ e = Eulerova konstanta
◦ ln = přirozený logaritmus (se základem e)
◦ Pro zjednodušení zápisu 𝑃 𝑥𝑖 = 1 𝜃 𝑝 = 𝑃𝑖𝑝
𝑃 𝑥𝑖 = 1 𝜃 je pravděpodobnost správné
odpovědi na položku i při schopnosti .
◦ Tato pravděpodobnost se někdy nazývá také „odhad
pravého skóre“ respondenta v dané položce (u
binárních položek), analogie k E(𝜏 𝑝𝑖).
Theta (𝜃 𝑝) je úroveň schopnosti respondenta 𝑝.
◦ Subskript p se zpravidla vynechává.
𝑏𝑖 je parametr obtížnosti položky 𝑖.
◦ Parametr obtížnosti 𝑏𝑖 položky 𝑖 je bod na škále
schopnosti, v němž je pravděpodobnost správné
odpovědi respondenta j se stejnou mírou schopnosti
(𝜃 𝑝 = 𝑏𝑖) na danou položku 𝑃 𝑥𝑖 = 1 𝜃 = 0,5.
http://fssvm6.fss.muni.cz/ICC/
snadnější položka / obtížnější položka /
nižší úroveň rysu vyšší úroveň rysu
Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál.
Raschův model (jednoparametrový)
Položka s obtížností bi = −2.
Respondent se schopností θ = bi = -2
má 50 % pravděpodobnost správné
odpovědi.
Raschův model (jednoparametrový)
Položka s obtížností bi = −2.
Respondent se schopností θ = bi = -2
má 50 % pravděpodobnost správné
odpovědi.
◦ Analogicky respondent s θ = 0 odpoví
správně s 88% pravděpodobností:
◦ 𝑃𝑖 𝜃 =
𝑒 0+2
1+𝑒 0+2 = 0,88.
Raschův model (jednoparametrový)
Položka s obtížností bi = −2.
Respondent se schopností θ = bi = -2
má 50 % pravděpodobnost správné
odpovědi.
◦ Analogicky respondent s θ = 0 odpoví
správně s 88% pravděpodobností:
◦ 𝑃𝑖 𝜃 =
𝑒 0+2
1+𝑒 0+2 = 0,88.
◦ A respondent s θ = 2 → 95 %.
◦ 𝑃𝑖 𝜃 =
𝑒 2+2
1+𝑒 2+2 = 0,98.
Dvouparametrový model (2PL)
Diskriminační parametr je
rozlišovací schopnost položky:
ukazuje, jak moc se liší „dobří“ a
„špatní“ respondenti v
očekávané pravděpodobnosti
správné odpovědi.
𝑃𝑖 𝜃 =
𝑒 𝑎 𝑖 𝜃−𝑏 𝑖
1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖
ai je diskriminační parametr pol. i
– naklonění ICC v bodě b.
◦ čím je křivka „plošší“, tím méně
rozlišuje
Analogií ai je ve faktorové analýze
faktorový náboj.
Charakteristická křivka položky 2PL
Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál.
Charakteristická křivka položky 2PL
-4 -2 0 2 4
0.00.20.40.60.81.0
IRT odhad
pravděpodobnost/true-score
Diskriminační parametry (theta=1):
a=0,5; p=0,70
a=1; p=0.85
a=2; p=0.97
Tříparametrový model (3PL)
Zavádí parametr pseudouhádnutelnosti 𝑐𝑖 pro
položky vícenásobné volby (multiple-choice):
𝑃𝑖 𝜃 = 𝑐𝑖 + 1 − 𝑐𝑖
𝑒 𝑎 𝑖 𝜃−𝑏 𝑖
1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖
◦ ci je parametr (pseudo)uhádnutelnosti pro
položku i.
V multiple-choice testech lze nahradit
Bockovým NRM nebo MC modelem.
◦ Modeluje přímo jednotlivé odpověďové
možnosti (distraktory).
Při prostém tipování je pravděpodobnost
„náhodně správné“ odpovědi teoreticky 1/n,
kde n je počet možných odpovědí.
◦ Tedy n-1 distraktorů a právě 1 správné odpovědi.
Tento předpoklad je příliš silný, proto je lepší
pro každou položku tuto pravděpodobnost
odhadnout zvlášť.
◦ Některé distraktory mohou být evidentně
chybné a respondent je vyloučí.
◦ Ideálně by se takové distraktory samozřejmě
neměly vyskytovat... chytáky nefungují.
-4 -2 0 2 4
0.00.20.40.60.81.0
IRT odhad
pravděpodobnost/true-score
Parametry uhádnutelnosti:
c = 0
c = 0,25
c = 0,5
Charakteristické křivky položek 3PL
c P(θ=0) P(θ=1)
0 0,5 0,73
0,25 0,63 0,80
0,5 0,75 0,87
Pozor – přestává platit poučka ze 2PL modelu:
𝜃 𝑝 = 𝑏𝑖 ⇒ 𝑃𝑖𝑗 = 0,5 !
V bodě 𝑏𝑖 je ale ICC nejstrmější.
𝑏𝑖 = 0 pro všechny položky
Čtyřparametrový model (4PL)
Použití spíše výjimečně pro specifické účely.
Zpravidla malé výhody, zahrnutím dalších parametrů se naopak významně zhoršují
vlastnosti modelu.
◦ Někdy je ale výhodné pracovat s horní namísto spodní asymptotou.
4PL: parametr „ledabylosti“ – ani nejlepší respondent nemá pravděpodobnost
správné odpovědi rovnu 100 %.
𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖
𝑒 𝑎 𝑖 𝜃−𝑏 𝑖
1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖
◦ di je parametr ledabylosti; zpravidla bývá blízký 1.
Technicky vzato existuje ještě 5PL model s asymetrickou odpověďovou funkcí.
𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖
𝑒 𝑎 𝑖 𝜃−𝑏 𝑖
𝑒 𝑖
1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖
𝑒 𝑖
Charakteristická křivka 4PL modelu
-4 -2 0 2 4
0.00.20.40.60.81.0
IRT odhad
pravděpodobnost/true-score
0.10.30.50.70.9
 Parametry:
 a = 1
 b = 0
 c = 0,25
 d = 0,95
 Pravěpodobnost:
 Pi(θ=0)=0,61
 Pi(θ=1)=0,77
𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖
𝑒 𝐷𝑎 𝑖 𝜃−𝑏 𝑖
1 + 𝑒 𝐷𝑎 𝑖 𝜃−𝑏 𝑖
Srovnání 1PL–3PL modelů
jednoparametrový model
◦ pouze parametr obtížnosti položky bi
dvouparametrový model
◦ přidává diskriminační parametr ai
tříparametrový model
◦ přidává parametr pseudo-uhádnutelnosti ci
◦ Ostatní symboly:
◦ schopnost respondenta: θ
◦ pravděpodobnost správné odp.: Pi
◦ i – číslo položky
◦ 4PL: di = 1 → 3PL
◦ 3PL: ci = 0 → 2PL
◦ 2PL: ai = 1 (nebo ai = a) → 1PL
On-line ilustrace
http://fssvm6.fss.muni.cz/ICC/
https://shiny.cs.cas.cz/ShinyItemAnalysis/
Raschův model
1PL model bývá označovaný jako Raschův.
To ale není tak docela přesné.
Raschovy modely jsou specifická kategorie v rámci IRT modelů.
◦ Odlišná epistemologická východiska.
◦ Zpravidla odlišný účel.
◦ Zpravidla odlišná identifikace modelu.
◦ IRT modely – zpravidla fixován rozptyl faktoru (SD = 1).
◦ Raschovy modely – zpravidla fixován diskriminační parametr (a = 1).
Srovnání Raschova a 1PL–3PL přístupu
RASCHŮV MODEL (1PL)
Spíše konfirmační princip
(data musí odpovídat modelu).
Pouze 1. parametr, a=1, zbytek je „šum“.
◦ Všechny pol. diskriminují (teoreticky) stejně.
Cílem je fundamentalita škály, invariance odhadu.
Menší závislost odhadů na
položkách/respondentech.
Nižší počet parametrů → nižší počet respondentů.
Vhodnější pro konstrukci diagnostických testů (SB-V,
Leiter-3, v ČR pak WJ-IV, KIT a další)
Možnost žádných předpokladů o rozložení
latentního rysu (JML estimátor).
IRT (1PL, 2PL, 3PL...)
Spíše explorační princip
(přizpůsobuje model datům).
Počet parametrů, který nejlépe popíše data.
◦ Diskriminace položek se může lišit.
Důraz je kladen na výběr „nejlepšího“ modelu.
Vyšší závislost odhadů na
položkách/respondentech.
Vyšší počet parametrů → vyšší počet respondentů.
Vhodnější pro test-equating v high-stakes testech
(SAT, GRE, SCIO, SK maturita) a adaptivní testování.
Zpravidla předpoklad normálního rozdělení (MML,
CML aj. estimátory).
Různé formáty parametrizace a zápisu
Rozdílné zápisy modelované pravděpodobnosti:
𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝 = 𝑃𝑖 𝜃 = 𝑃𝑖𝑝
= 𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝, 𝑏𝑖, 𝑎𝑖, 𝑐𝑖
Rozdílné možnosti zápisu (zde 1PL) modelu:
𝑃𝑖𝑝 =
𝑒 𝜃 𝑝−𝑏 𝑖
1 + 𝑒 𝜃 𝑝−𝑏 𝑖
=
1
1 + 𝑒− 𝜃 𝑝−𝑏 𝑖
=
exp 𝜃 𝑝 − 𝑏𝑖
1 − exp 𝜃 𝑝 − 𝑏𝑖
=
1
1 + exp 𝑏𝑖 − 𝜃 𝑝
Exponenciální vs. logistický zápis:
𝑃𝑖𝑝 =
𝑒 𝜃 𝑝−𝑏 𝑖
1 + 𝑒 𝜃 𝑝−𝑏 𝑖
~ ln
𝑃𝑖𝑝
1 − 𝑃𝑖𝑝
= 𝜃 𝑝 − 𝑏𝑖
Tradiční IRT parametrizace (2PL modelu):
𝑃𝑖𝑝 =
𝑒 𝑎 𝑖 𝜃 𝑝−𝑏 𝑖
1 + 𝑒 𝑎 𝑖 𝜃 𝑝−𝑏 𝑖
Intercept-slope parametrizace:
𝑃𝑖𝑝 =
𝑒 𝑎 𝑖 𝜃 𝑝+𝑏 𝑖
1 + 𝑒 𝑎 𝑖 𝜃 𝑝+𝑏 𝑖
Výhody intercept-slope parametrizace
Výhoda 1: multidimenzionální (Reckaseho, kompenzatorní) model
𝑃𝑖𝑝 =
𝑒 𝑎 𝑖1 𝜃 𝑝1+𝑎 𝑖2 𝜃 𝑝2+ … +𝑎 𝑖𝑛 𝜃 𝑝𝑛+𝑏 𝑖
1 + 𝑒 𝑎 𝑖1 𝜃 𝑝1+𝑎 𝑖2 𝜃 𝑝2+ … +𝑎 𝑖𝑛 𝜃 𝑝𝑛+𝑏 𝑖
Výhoda 2: srovnání s faktorovou analýzou
Faktorová analýza: E 𝑥𝑖𝑝 = 𝑎𝑖1 𝜃 𝑝1 + 𝑎𝑖2 𝜃 𝑝2 + … + 𝑎𝑖𝑛 𝜃 𝑝𝑛 + 𝑏𝑖
◦ S reziduálním rozptylem 𝜎𝑖
2
shodným pro všechny odpovědi na danou položku.
◦ faktorový náboj 𝑎𝑖 se zpravidla značí jako 𝜆𝑖
IRT: ln
𝑃 𝑖𝑝
1−𝑃 𝑖𝑝
= 𝑎𝑖1 𝜃 𝑝1 + 𝑎𝑖2 𝜃 𝑝2 + … + 𝑎𝑖𝑛 𝜃 𝑝𝑛 + 𝑏𝑖
E 𝑥𝑖𝑝 = 𝑃𝑖𝑝
◦ S reziduálním rozptylem 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 (rozptyl binární proměnné) různým napříč respondenty.
Předpoklady IRT
Realismus: latentní rys existuje a jde o spojitou intervalovou proměnnou.
◦ Zpravidla navíc i normálně rozloženou.
◦ Ale... diskrétní IRT modely, LCA, estimátory pro nenormálně rozložený latentní rys.
Lokální nezávislost položek.
◦ Veškeré vzájemné vztahy položek lze vysvětlit působeným modelovaných latentních rysů.
◦ Tzn. parciání vztah položek po kontrole úrovně latentního rysu je nulový.
◦ V případě jediného rysu: jednodimenzionalita.
Odpovědi lidí na položku lze modelovat prostřednictvím ICF.
◦ Charakteristická funkce položky (ICF = Item Characteristic Function)
◦ Někdy též Item Response Function (IRF), Item Characteristic Curve (ICC) atd.
◦ Ale... Mokkenovo škálování a neparametrické IRT.
Přednáška 7–8:
Teorie odpovědi na položku
2. ČÁST PŘEDNÁŠKY
Opakování první části přednášky
Teorie odpovědi na položku (IRT): realistický model měření.
Klíčové téma IRT: vztah latentního rysu a manifestních odpovědí na položky.
Charakteristická funkce položky (ICC): teoretický model tohoto vztahu.
Různé IRT modely mají různé ICC: 1PL, 2PL, 3PL.
Parametr obtížnosti, diskriminace, pseudouhádnutelnosti.
Raschův model vs. 1PL IRT model.
Obsah druhé části přednášky
Charakteristická funkce testu.
Odhad míry latentního rysu, IRT škálování, IRT skóry.
Práce s chybou: Informační funkce položky, testu, chyba měření.
Shoda modelu s daty.
IRT modely pro polytomní data.
Ordinální faktorová analýza (item-factor analysis).
Klíčové oblasti využití IRT.
◦ Počítačově adaptivní testování.
◦ Vyvažování paralelních forem testu.
Charakteristická
funkce testu
Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š.
(2017). Psychometrická analýza TIM3–5 – Testu pro
identifikaci nadaných žáků v matematice pro 3.–5.
třídu. Brno: Masarykova univerzita. Retrieved from
https://munispace.muni.cz/index.php/munispace/ca
talog/book/968
Charakteristická funkce testu (TCF)
Test Characteristic Function/Curve (TCF/TCC).
Jde o prostý součet jednotlivých ICC:
𝑇𝐶𝐶 𝜃 = ෍
𝑖=1
𝑛
𝐼𝐶𝐶𝑖 𝜃 = ෍
𝑖=1
𝑛
𝑃𝑖 𝜃 = E 𝑇 𝜃
◦ kde n je počet položek.
Hodnota očekávaného pravého skóre E 𝑇 𝜃 u respondentů s určitou mírou
latentního rysu 𝜃.
◦ Protože E 𝑋 = 𝑇, logicky platí E 𝑇 𝜃 = E 𝑋 𝜃 .
◦ Pro neznámou „pravou hodnotu“ 𝜃, nikoli její odhad መ𝜃.
Charakteristická funkce testu (TCF)
Charakteristická funkce testu (TCF)
TCF lze využít při skórování testu.
1PL: TCC izomorfní, každému X odpovídá právě jedno θ. Toho se využívá při
skórování (pro odhad postačuje HS). 𝑇𝐶𝐶 ෠𝜃 ↔ 𝑋.
2PL: vztah není jednoznačný; diskriminační parametr dává rozdílné váhy
položkám. Záleží, které byly zodpovězeny správně: 𝑇𝐶𝐶 𝜃 → 𝑋; 𝑋 ↛ 𝑇𝐶𝐶( ෠𝜃).
◦ Každému HS odpovídá konečný počet odhadů latentních rysů podle konkrétních odpovědí.
◦ Z hrubého skóre lze na úroveň latentního rysu usuzovat jen se ztrátou reliability.
◦ Zpravidla se pro skórování používají přímo odpovědi na jednotlivé položky.
Řada dalších využití, např.:
◦ Observed (total) score IRT equating.
◦ Differentional test functioning (DTF).
Srovnání TCC Raschova a 2PL modelu
LSAT7 data v mirt balíčku (5 binárních položek)
IRT škálování
IRT skóry
IRT škály
Cígler, H. (2018). Měření matematických
schopností. Brno: Masarykova univerzita.
Kde je (sakra) to celkové skóre?
Problém zpětné inference (epistemologie).
◦ Model: Latentní rys způsobuje odpovědi na položky.
◦ Praxe: Z odpovědí na položky usuzujeme na míru rysu.
◦ Známe-li parametry (obtížnost...) položek, můžeme odhadnout nejpravděpodobnější úroveň
latentního rysu, pro kterou bychom právě takové odpovědi pozorovali.
Při výzkumu (např. standardizace metody):
◦ Odhadujeme parametry položek i osob naráz (ale...).
◦ Parametry položek uschováme pro budoucí použití, parametry osob se použijí pro tvorbu
norem (IQ, T-skóry, percentily...)
Při praktickém použití již standardizované metody:
◦ Z dopředu „nakalibrovaných“ položek usuzujeme na míru rysu, kterou pak převedeme na
standardní skóry.
Logitový skór
Výstupem IRT (Raschova modelu, 2PL+ to
může být komplikovanější) je skór v logitech.
◦ Analogie hrubého skóre v CTT.
Interpretace:
𝑙𝑜𝑔𝑖𝑡 = ln
𝑃 𝜃
1 − 𝑃 𝜃
Kde 𝑃 𝜃 je typicky podíl položek, které
respondent zvládne splnit správně.
◦ Platí jen přibližně!
Logity převádějí pravděpodobnost (resp.
percentil) na intervalovou proměnnou.
𝜽 − 𝒃𝒊 P
-5 0,7%
-4,5 1,1%
-4 1,8%
-3,5 2,9%
-3 4,7%
-2,5 7,6%
-2 11,9%
-1,5 18,2%
-1 26,9%
-0,5 37,8%
0 50,0%
0,5 62,2%
1 73,1%
1,5 81,8%
2 88,1%
2,5 92,4%
3 95,3%
3,5 97,1%
4 98,2%
4,5 98,9%
5 99,3%
IRT škálování
Samotný skór v logitech se pro praktické použití dále standardizuje.
◦ Intervalová škála rysu napříč všemi skupinami respondentů.
◦ Z ní IQ, T-skóry apod. pro daný ročník/věk/pohlaví atd.
Kromě toho specifické (typicky Raschovské) skóry:
◦ W-skóry: Vhodné pro sledování růstu či vývoje, nezávisí na vzorku.
◦ W 500 ve věku 10;0 (příp. na začátku 5. ročníku)
◦ Vzdálenost 𝑏 − 𝜃 = 10𝑊 odpovídá změně pravděpodobnosti správné odpovědi z 50 % na 75 % (resp. 25 %).
◦ Lze predikovat úspěch v položkách/subtestech.
◦ RPI (Relative Proficiency Index): X/90, závisí na vzorku.
◦ Index relativní výkonnosti. Jaká je pravděpodobnost X správné odpovědi na položky, které lidé ze stejné
normalizační skupiny odpovídají s 90% pravděpodobností správně? (Pro jiné základy zlomku kalkulačka zde.)
Jaffe, L. E. (2009). Development, interpretation, and application of the W score and the relative proficiency index (Woodcock-Johnson III Assessment Service Bulletin No. 11). Rolling Meadows, IL: Riverside Publishing.
𝑊 =
10
ln 3
𝜃 − ҧ𝜃10 + 500
𝑊 = 9,1 𝜃 − ҧ𝜃10 + 500
• kde ҧ𝜃10 = průměrný skór 10letých
• W-skóre má 9,1krát užší měřítko než logit.
IRT škálování
Klíčová výhoda IRT škálování:
Odhad latentního rysu není závislý na
použitých položkách.
◦ V CTT je naopak pravý skór
„operacionalizován“ položkami.
◦ Chybějící data nejsou problém
Toho využívají IRT metody, např.:
◦ Subtesty dělené podle věku, ale stále
srovnatelné pomocí W-skóru.
◦ Různé „startovací položky“.
◦ Pravidla ukončení.
Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Standardizace BACH: Testy školních dovedností: Obecné pokyny. Verze dokumentu 1.02.
Masarykova univerzita a Propsyco.
Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Testy školních dovedností (BACH): Matematika. Masarykova univerzita a Propsyco.
IRT škálování
Příklad z měření
fluidní inteligence:
◦ Dítěti v 5 letech jsme naměřili IQ 100.
◦ Při retestu v 8 letech má IQ 85.
Inteligence
dítěte se: ... ?
◦ a) zvýšila
◦ b) nezměnila
◦ c) snížila
◦ d) nelze říci
◦ e) nechci odpovídat
http://mindsbasis.blogspot.cz/2016/03/rasch-measure-of-intelligence-age-2-25.html
Vývoj indexů ve WJ-IV
v závislosti na věku.
Raschův model
umožňuje srovnávání
vývoje průměrné
úrovně rysů v čase.
Ve vícePL IRT
modelech
problematické
(nestejná „škála“).
McGrew, K. S., LaForte, E. M., & Schrank, F. A. (2014). Technical Manual. Woodcock Johnson IV. Rolling Meadows, IL: Riverside.
Krátký inteligenční test (KIT)
Srovnání vývojových křivek
použito jako důkaz
konstruktové validity.
Cígler, H. (2018). Měření matematických schopností. Brno: Masarykova univerzita.
LEITER-3
(Leiter International
Performance Scale)
položky
jednotlivé
subtesty
W-škála
věkové
ekvivalenty
Estimátor IRT skóre
Více různých estimátorů s výrazně odlišným významem.
Maximum likelihood (ML), resp. Weighted mean likelihood (WML).
◦ Typicky Raschovské modely, nezávislé na populační distribuci.
◦ Jaká úroveň latentního rysu nejvíce odpovídá pozorovanému odpověďovému vzorci?
◦ Nezávislé na vzorku, ale náchylné na extrémní data.
Expected a-posteriori (EAP), Maximum a-posteriori (MAP).
◦ Bayesovský odhad, průměr (EAP) nebo modus (MAP) posteriorní distribuce.
◦ Bere v potaz apriorní populační distribuci a kombinuje ji s věrohodností dat.
◦ Více centrální, analogie odhadu pravého skóre v CTT.
◦ Zásadně závislé na vzorku, extrémní data nejsou problém.
Plauzibilní hodnoty (typicky za využití EAP).
Přehled různých typů skórů: Opakování
Hrubé skóry (CTT součtové skóry, IRT odhady) – nelze samy o sobě interpretovat.
Odvozené skóry (percentily, IQ a další standardní skóry) poskytují normativní srovnání s referenční
skupinou. Jsou závislé na vlastnostech škály a vzorku (M, SD).
Ipsativní skóry poskytují intraindividuální srovnání odvozených skórů (diagnostika profilu atp.).
◦ Statisticky, klinicky významný rozdíl...
W-skóry zasazují výkon člověk na škálu nezávislou na věku a populaci společnou pro typ testů.
◦ Do jisté míry nezávislou na počtu a konkrétním znění položek.
RPI index poskytuje měřítko pro srovnání rozdílu výkonu probanda a referenční skupiny na snadno
představitelné škále. Závislý na průměru (M), ale nikoli na variabilitě (SD).
◦ Rozdíl 30 IQ v pěti a dvaceti letech znamená velmi odlišný rozdíl v reálném výkonu, protože SD5 > SD20.
Věkové a ročníkové ekvivalenty zasazují respondenta na vývojovou škálu. Zóna nejbližšího vývoje.
Chyba měření
v IRT
Informační funkce položky
Informační funkce testu
Chyba měření
Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis
for teaching psychometrics and to enforce routine analysis
of educational tests. The R Journal, 10(2), 503-515.
doi: 10.32614/RJ-2018-074
Pojetí reliability a přesnosti měření v IRT
IRT odděluje úvahu o:
◦ Chybě měření (a intervalech spolehlivosti odhadu).
◦ Tzv. informační funkce položky/testu.
◦ Teoreticky nezávislá na výzkumném souboru.
◦ Reliabilitě, celkové spolehlivosti testu.
◦ Výsledek interakce metody se vzorkem; fungování metody v dané populaci.
◦ Odhadnuté na základě parametrů vzorku a chyb měření lidí ve vzorku.
V IRT je tedy odhad SE používán pro odhad reliability.
◦ V CTT spíše naopak (ale srov. GT).
Odbočka: Informační teorie
Množství informace nesené (nejen) diskrétní
proměnnou souvisí s obtížností předpovědět
daný jev.
◦ Jinými slovy: Čím nižší souvislost má apriorní
očekávání s pozorováním, tím více informace.
◦ Př.: Pokud jev může nabývat hodnot 0/1, ale reálně nabývá
vždy 1, pozorovaná odpověď nenese žádnou informaci,
protože tu 1 očekáváme.
Př.: Lidé odpovídají ano/ne na různé otázky.
◦ Ignác vždy odpoví „ano“ nehledě na otázku.
◦ Ignácie se zamyslí a odpoví podle otázky.
◦ Odpovědi Ignácie nesou více informace, než
odpovědi Ignáce. Informace Bernoulliho pokusu podle
pravděpodobnosti úspěchu.
Informační funkce položky (IIF)
Item Information Function/Curve (IIF/IIC)
Informační funkce položky 𝐼𝑖 𝜃 je funkcí jednotlivých parametrů modelu.
◦ Pro každou úroveň schopnosti 𝜃 jiná.
Binární položky:
𝐼𝑖 𝜃 =
𝑃𝑖
′
𝜃
2
𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃
◦ 𝑃𝑖 𝜃 = Charakteristická funkce položky
◦ 𝑃𝑖
′
𝜃 = první derivace této funkce.
◦ 1 − 𝑃𝑖 𝜃 = pravděpodobnost jiné než správné odpovědi.
◦ Pozn.: 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 = var 𝑃𝑖 𝜃
Informační funkce položky (IIF)
1PL MODEL (RASCHŮV)
Pro 1PL model platí
𝑃𝑖
′
𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃
◦ a lze tedy zjednodušit:
𝐼𝑖 𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃
◦ V Raschově binárním modelu mají všechny
položky stejný průběh funkce (diskriminační
parametr), liší se jen umístěním maxima.
◦ Maximum je v bodě obtížnosti pol. (𝑏𝑖).
◦ Maximum funkce je vždy 0,5 ∙ 0,5 = 0,25.
2PL, 3PL MODELY
Pro 2PL model platí
𝑃𝑖
′
𝜃 = 𝑎𝑖
2
𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃
◦ a lze tedy zjednodušit:
𝐼𝑖 𝜃 = 𝑎𝑖
2
𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃
Informační funkce 3PL modelu je:
𝐼𝑖 𝜃 = 𝑎𝑖
2 𝑃𝑖 𝜃 − 𝑐𝑖
2
1 − 𝑐𝑖
2
1 − 𝑃𝑖 𝜃
𝑃𝑖 𝜃
◦ fixováním 𝑐𝑖 = 0, resp. 𝑎𝑖 = 1 lze
dosáhnout 2PL, resp. 1PL IIF.
◦ U 3PL není maximum v bodě obtížnosti.
Informační funkce položky
Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=2,5; b=-2; c=0; d=1
https://itemanalysis.com/irt-illustrator/
Informační funkce položky
Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=1; b=0; c=0,5; d=1
https://itemanalysis.com/irt-illustrator/ (Pozor, osa y má odlišné měřítko od předchozího snímku.)
Informační funkce položky
Celková informační funkce položky (plocha pod křivkou) závisí na:
◦ Diskriminačním parametru (+).
◦ Parametru pseudouhádnutelnosti (-).
Velikost informace položky se liší pro jednotlivé respondenty podle
jejich schopnosti θ a závisí dále na:
◦ Blízkosti parametru obtížnosti a latentního rysu respondenta.
◦ Položka přináší nejvíce informace, když je ICC nejstrmější, a tedy
pravděpodobnost správné odpovědi 𝜃 = 𝑏𝑖 (1PL, 2PL).
◦ Toho se využívá při počítačově adaptivním testování (CAT).
Informační funkce testu (TIF)
a chyba měření
Informační funkce testu 𝐼 𝜃 je
součtem informačních funkcí
jednotlivých položek:
𝐼 𝜃 = ෍
𝑖=1
𝑛
𝐼𝑖 𝜃
◦ (Analogie k CTF.)
Lze ji chápat jako relativní
nepřítomnost chybového rozptylu, a
proto se chyba měření 𝑆𝐸 liší podle
odhadu úrovně lat. rysu ෠𝜃:
𝑆𝐸 ෠𝜃 =
1
𝐼 𝜃
◦ (tedy čím vyšší informační funkce, tím
přesnější měření/menší chyba měření)
Interval spolehlivosti potom získáme jednoduše např. jako:
𝐶𝐼95%
෠𝜃 = ෠𝜃 ± 𝑧97,5% ∙ 𝑆𝐸෡𝜃
◦ (Reálně se ale často používají různé pokročilejší techniky).
Charakteristická funkce testuCharakteristická funkce položek
Charakteristická funkce testuCharakteristická funkce položek
Informační funkce testuInformační funkce položek
Informační
funkce
testu
a chyba
měření
Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu.
Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968
Reliabilita v IRT
Stejná definice reliability jako v CTT: 𝑟𝑥𝑥´ =
𝜎 𝑇
2
𝜎 𝑋
2 =
𝜎 𝑇
2
𝜎 𝑇
2+𝜎 𝑒
2 =
𝜎 𝑋
2
−𝜎 𝑒
2
𝜎 𝑋
2 = 1 −
𝜎 𝑒
2
𝜎 𝑋
2
◦ Interpretace je stejná, jako v CTT.
Odhad reliability:
◦ Do vzorce výše dosadíme za 𝜎 𝑋 pozorovanou SD odhadů latentních rysů.
◦ A 𝜎𝑒 = 𝑅𝑀𝑆𝐸 =
σ 𝑝=1
𝑁 𝑆𝐸 𝑝
2
𝑁
, kde SEp je standardní chyba každého z N respondentů, a RMSE je
tzv. root mean-square error (odmocnina průměrného chybového rozptylu). Takže:
𝑟𝑥𝑥´ = 1 −
𝑅𝑀𝑆𝐸2
𝜎 𝑋
2 = 1 −
σ 𝑝=1
𝑁
𝑆𝐸 𝑝
2
𝑁𝜎 𝑋
2
Komplikace: Záleží na estimátoru.
◦ CML, MML a resp. EAP, MAP odhady
pracují s odhadem latentního rysu
(regrese k průměru) a tedy je
odhadován nikoliv 𝜎 𝑋
2
, ale přímo 𝜎 𝑇
2
.
A tedy: 𝑟𝑥𝑥´ =
𝜎 𝑇
2
𝜎 𝑇
2+𝑅𝑀𝑆𝐸2
Reliabilita v IRT
Interpretace: poněkud komplikovanější než v CTT.
V zásadě: reliabilita jako vysvětlený rozptyl.
◦ Podíl rozptylu odhadů faktorových skórů, který lze vysvětlit latentním rysem.
Interpretace jako korelace problematická.
◦ Jen přibližně.
◦ Heteroskedascidita chyb odhadu.
Lokální reliabilita
Pro reliabilitu měření konkrétního respondenta nebo konkrétní
skupiny dosadíme za 𝜎𝑒 přímo SE daného odhadu či RMSE
spočítaného pro konkrétní skupinu (Daniel, 1999): tzv. „lokální
reliabilita“.
◦ Reliabilita testu, „pokud by fungoval všude stejně, jako pro dané
respondenty“.
◦ Umožňuje zacílit výběr položek pro určitý testový záměr.
◦ Není reliabilitou v pravém slova smyslu (tj. „statisticky“), ale pro praktické
použití je velmi užitečná.
Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu.
Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968
Shoda modelu
s daty
Na úrovni položky.
Na úrovni respondenta.
Pravděpodobnost konkrétní odpovědi.
Lokální závislost položek.
Na úrovni modelu.
Shoda modelu s daty
NA ÚROVNI CELÉHO MODELU
Odpovídají pozorovaná data IRT
modelu?
Obdobný přístup jako
v konfirmační faktorové analýze
◦ χ2, TLI, CFI, RMSEA...
◦ Na hrubých datech zkreslené velkým počtem d.f., proto reprodukované
bivariační matice a „limited information approach“ s využitím M2
statistiky (Maydeu-Olivares a Joe, 2006; Cai a Hansen, 2013)
Umožňuje srovnání modelů navzájem
◦ 1PL vs. 2PL vs. 3PL... (nejen pomocí LRT).
IRT lze v tomto ohledu použít namísto
běžné EFA/CFA
NA ÚROVNI POLOŽKY/RESPONDENTA
Na kolik dobře odpovídají pozorované
odpovědi 1 respondenta nebo
odpovědi na 1 položku zvolenému IRT
modelu?
Celá řada indexů.
◦ Person fit: identifikace aberantních
odpovědí.
◦ Např. pro účely purifikace dat při standardizaci.
◦ Item fit: doplňková informace o kvalitě
položky (vedle parametrů modelu)
◦ Testy lokální nezávislosti (analogie
reziduálních korelací a modifikačních indexů
v FA).
Shoda na úrovni respondenta/položky
Na rozdíl od CFA lze uvažovat o shodě modelu s daty na úrovni položky/respondenta.
◦ „Odpovídá univariační frekvenční tabulka pozorovaných odpovědí predikovaným odpovědím?“
Využití shody položky s daty:
◦ Vyřazování nefungujících položek, kontrola položek při equatingu, MG IRT a podobně.
◦ Úprava IRT modelu (ICC) pro konkrétní položku.
Využití shody respondenta s daty
◦ Identifikace aberantního odpovídání.
◦ Vyřazení respondentů odpovídajících nahodile při standardizačních studiích.
Občas se využívá i identifikace konkrétní nepravděpodobné odpovědi.
◦ WJ-IV COG: jsou vyřazeny odpovědi podle tzv. pravidla 5σ (p = 0,00000057).
◦ Například respondent odpoví chybně z důvodů nesouvisejících s měřeným rysem.
Shoda položky s daty (item fit)
https://philchalmers.github.io/mirt/html/itemfit.html
Lokální závislost položek
Explorace, zda dvě položky nesouvisí silněji či slaběji, než by odpovídalo modelu.
◦ „Odpovídá bivariační frekvenční tabulka dvou položek tomu, co predikuje model?“
Lze identifikovat prostřednictvím chí-kvadrát testu a odvozených metod.
Analogie k reziduální kovarianční matici, případně modifikačním indexům (M.I.) v
CFA, nicméně výrazně výpočetně náročnější.
◦ Reziduální kovariance jsou přímo spočítané v rámci modelu.
◦ M.I. lze získat jednoduchými maticovými operacemi, zde je potřeba počítat pro každý pár
zvlášť.
Velikost efektu (např. Cramerovo V) vs. signifikance...
Shoda celého modelu s daty
Založen na chí-kvadrát testu stejně jako v CFA.
◦ CFI, TLI, RMSEA, SRMSR, AIC, BIC, saBIC a další.
Full-information statistiky: χ2, G2.
◦ Založené na diskrepanční likelihood funkci (G2), resp. diskrepanci pozorované a modelem predikované
matici odpovědí (χ2).
◦ Jinými slovy: diskrepance multivariační frekvenční tabulky všech položek.
◦ Jaké jsou předpoklady χ2? Jsou dodrženy?
Proto limited-information statistiky: M2, M2
*, C2.
◦ M2, M2
* – univariační a bivariačí frekvence, binární (M2) a polytomické (M2
*) položky.
◦ C2 – varianta pro kratší testy s delší odpověďovou škálou, pouze bivariační frekvenční tabulky.
Interpretace indexů CFI, TLI, RMSEA a dalších založených na M2, M2
*, C2 analogická indexům v
CFA.
Polytomní IRT
modely
Graded Response Model
Generalized Partial Credit Models
Tutzův sekvenční model
Bockův Nominal Response Model
Ordinální faktorová analýza
Polytomní IRT modely
Určeny pro práci s položkami s více odpověďmi.
◦ Např. Likertova škála 1-7, parciálně správné odpovědi ve výkonovém testu nebo multiplechoice
položky.
◦ Na rozdíl od CTT mohou vést k doporučení zvýšit či snížit počet kategorií položek.
◦ Zpravidla 1PL či 2PL.
Modely pro nominální či nominální kategorie.
3 hlavní kategorie polytomních modelů1:
◦ difference models (GRM, MGRM) – výhradně ordinální kategorie
◦ divide-by-totals (PCM, GPCM, NRM)
◦ sekvenční modely (Tutzův sekvenční model)
1 Sijtsma, K., & Hemker, B. (2000). A Taxonomy of IRT Models for Ordering Persons and Items Using Simple Sum Scores. Journal of Educational
and Behavioral Statistics, 25(4), 391-415. http://www.doi.org/10.2307/1165222
Polytomní modely (z rychlíku)
Ordinální data
◦ (Generalized) Partial Credit Model (GPCM, PCM) – původně určený pro výkonová data, kde se
skóre položky sestává z dílčích samostatně skórovaných kategorií.
◦ Graded Response Model (GRM) – původně určený pro dotazníky, kde respondent
zaznamenává spojitou, kontinuální míru „souhlasu“ na ordinální škále.
Nominální data
◦ Nominal Response Model (NRM) – každá odpověďová kategorie je modelovaná zvlášť.
◦ Multiple-choice Model (MCM) – dílčí úprava NRM vhodné pro MC data.
Graded Response Model (GRM)
Zobecnění 2PL modelu (Samejima, 1969): série 2PL modelů:
𝑃𝑖𝑥
∗
𝜃 =
𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥
1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥
𝑃𝑖𝑥 𝜃 = 𝑃𝑖𝑥
∗
𝜃 − 𝑃𝑖 𝑥+1
∗
𝜃
Dvoukrokový odhad pravděpodobnosti:
◦ Pro každou odpověď 𝑥 je odhadnuta pravděpodobnost 𝑃𝑖𝑥
∗
𝜃 , že respondent odpoví touto nebo vyšší odpovědí
(vs. nižší). 𝑏𝑖𝑥 - obtížnost kategorie 𝑥 na položce 𝑖. Pro účely výpočtu je nejnižší kategorie 𝑃𝑖 𝑥=0
∗
𝜃 = 1
◦ Výsledná pravděpodobnost konkrétní odpovědi 𝑃𝑖𝑥 𝜃 je rozdílem odhadnuté pravděpodobnosti a
pravděpodobnosti o jedna „vyšší/těžší“ odpovědi.
Modified Graded Response Model (MGRM, Muraki, 1990); někdy též GRSM.
◦ 𝑃𝑖𝑥
∗
𝜃 =
𝑒
𝑎 𝑖 𝜃− 𝑏 𝑖−𝑐 𝑗
1+𝑒
𝑎 𝑖 𝜃− 𝑏 𝑖−𝑐 𝑗
, kde 𝑐𝑗 jsou parametry jednotlivých prahů 𝑗 a 𝑏𝑖 obtížnost položky 𝑖.
Graded Response Model (GRM)
𝑃𝑖𝑥
∗
𝜃 =
𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥
1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥
𝑃𝑖𝑥 𝜃 = 𝑃𝑖𝑥
∗
𝜃 − 𝑃𝑖 𝑥+1
∗
𝜃
E 𝑋𝑖 = ෍
𝑗=1
𝐾
𝑗𝑃𝑖𝑗
∗
𝜃
Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce
routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074
Nominal Response Model
Using the Distractor Categories of Multiple-Choice Items to Improve IRT Linking
Ukázka ideal-point modelu
https://www.slideserve.com/content/applying-ideal-point-irt-models-to-score-single-stimulus-and-pairwise-preference-personality-items
Srovnání modelů
Běžné modely:
divided-by-total a graded modely.
Embretson a Reise (2009)
Ordinální faktorová analýza
Ordinální faktorová analýza je založená na tetrachorických (binární položky), respektive
polychorických korelacích (ordinální položky).
Tetrachorická/polychorická korelace:
◦ Existuje spojitá, intervalová, normálně rozložená latentní odpověď (LR, Latent Response).
◦ Ta není přímo pozorovaná (je latentní).
◦ Manifestuje se pouze jako ordinální kategorie.
◦ Pokud LR překročí příslušný práh položky, pozorujeme vyšší kategorii.
Tetra/poly korelace jsou odhadovány na základě bivariačních frekvenčních tabulek.
Ordinální FA tedy faktoruje matici polychorických korelací.
◦ Tradiční postup: Odhadne se polychorická matice a ta vložena do EFA.
◦ Modernější postup: polychorická matice a parametry FA jsou odhadovány naráz pomocí DWLS/WLSMV
estimátoru.
Tetrachorická korelace (ρ = 0,6)
Tetrachorická korelace (ρ = 0,6)
Ordinální faktorová analýza
Klasická CFA: latentní faktor způsobuje manifestní
odpověď.
𝑋𝑖 = 𝜆𝑖 𝑓 + 𝜈𝑖 + 𝜀, var 𝜀 = 𝜃𝑖
◦ 𝑓 – faktor, 𝜆𝑖 - faktorový náboj,𝜃𝑖 - reziduální rozptyl
Ordinální CFA: latentní faktor způsobuje latentní
odpověď (LR).
𝐿𝑅𝑖 = 𝜆𝑖 𝑓 + 𝑣𝑖 + 𝜀, var 𝜀 = 𝜃𝑖
𝐿𝑅𝑖 ≥ 𝜏𝑖 𝑘−1 ∧ 𝐿𝑅𝑖 < 𝜏𝑖𝑘 ⟹ 𝑋𝑖 = 𝑘, 𝜏𝑖0 = −∞
◦ 𝜏𝑖𝑘 - k-tý práh položky i.
Ordinální CFA je probitový Graded Response Model.
◦ S nepatrně odlišnou parametrizací.
Vybrané aplikace
IRT:
Počítačové adaptivní testování (CAT)
Equating, linking
Typická využití IRT
Běžné ověření (konfirmační IRT) a explorace (explorační IRT) faktorové struktury.
◦ Test pak může být skórován klidně s využitím CTT.
IRT jako nástroj pro škálování.
◦ Zajímají nás právě IRT odhady latentního rysu.
IRT jako výzkumný nástroj (explanační modely).
IRT jako model měření.
DIF analýza a MG IRT (viz přednáška o férovosti).
Další specifická využití:
◦ Počítačové adaptivní testování (CAT)
◦ Vyvažování paralelních forem testu (linking, equating) - souvisí se škálováním.
Počítačové adaptivní testování
Computerized Adaptive Testing (CAT)
1. myšlenka: Nemá smysl administrovat respondentovi takové položky, které
nezpřesní odhad jeho latentního rysu.
◦ Jsou pro něj příliš jednoduché (téměř jistě je odpoví správně)
◦ Případně příliš těžké (téměř jistě odpoví chybně).
◦ Takové položky nesou příliš málo informace (nízká hodnota informační funkce).
2. myšlenka: IRT nevadí chybějící data. Pracuje s dílčími položkami, nikoliv celým
testem.
Použití: TOEFL, GRE, v ČR A3DW či ATAVT od Schufrieda, Invenio od IVDMR (in
progress ).
Počítačové adaptivní testování: Postup
1. Administruji úvodní set položek a odhadnu úroveň latentního rysu.
2. Vyberu a administruji položku, která má pro danou úroveň rysu maximální
odpověďovou funkci.
◦ Tedy (u 1PL), jejíž obtížnost je nejblíže úrovni odhadnuté schopnosti (P 𝜃 = 0,5).
◦ Případně nepatrně lehčí (typicky 0,5 < P 𝜃 < 0,7), abych respondenta motivoval.
◦ Často ještě randomizace, aby se neopakovaly stále tytéž položky (s největším a-parametrem).
3. Odhadnu znovu rys.
4. Opakuji kroky 2 a 3, dokud nedosáhnu pravidla ukončení.
◦ Vyčerpám všechny položky nebo cílového počtu položek/času administrace.
◦ Standardní chyba odhadu se sníží pod stanovenou mez.
◦ Apod.
Počítačové adaptivní testování: Výhody
Efektivnější testování.
◦ Zkrácení testu při zachování reliability / zvýšení reliability při zachování délky.
Větší množství položek, každý má trochu jiné položky.
◦ Redukce možnosti opisovat.
◦ Snížení rizika a hlavně důsledků případného úniku položek.
◦ Respondent nemusí odpovídat na neadekvátní položky (příjemnější testování).
Lze využít i při individuální administraci.
◦ Např. s využitím administrace na tabletu.
CAT příklad
CAT příklad
CAT příklad
CAT příklad
CAT příklad
CAT příklad
Celý test: rxx‘ = 0,895
◦ Celkem 58 položek, čas M = 6,6 min.
Zkrácený test: rxx‘ = 0,830
◦ Průměrně 15,7 položek, čas M = 2,0 min.
Časová úspora: 70 % při nepatrném snížení
reliability.
IRT skóry z celého a adaptivního testu se neliší.
◦ r = 0,96, χ2(df = 308) = 82,8, p = 1,00, pK-S = 0,91.
◦ Jen výjimečně skoková změna odhadu výkonu.
CAT příklad
Test equating (vyvažování testů)
Vyvážení obtížnosti jednotlivých forem testu.
◦ V high stakes testech jednorázové vyvážení – sjednocení obtížností a srovnání probandů
napříč formami testu.
◦ V psychologických metodách vyvážení skóru paralelních forem a vyvinutí rovnocenných
nástrojů.
◦ Linking (prosté srovnání měřítek) vs. equating (zajištění stejné škály).
Předpoklad: Obě formy měří stejný konstrukt (otázka validity).
GRE, SAT: od konce 80./začátku 90. let je (v USA) IRT vyvažování high-stakes testů
normou.
Typické kroky: volba designu, sběr dat, samotná transformace.
Test equating (vyvažování testů)
Tři tradiční způsoby založené na pozorovaném skóre:
◦ Vyvažování na základě průměru (M) – testy musí mít stejné rozptyly, data musí být normálně
rozdělená. 𝑥2 = 𝑥1 + 𝑋2 − 𝑋1
◦ Lineární vyvažování (M, SD) – rozptyly se mohou lišit, data musí být normální. 𝑥2 = ത𝑋2 +
𝜎2
𝜎1
𝑥1 − ത𝑋1 (transformace přes z-skór)
◦ Equipercentilové vyvažování – varianty jsou upraveny tak, aby tentýž skór měl v obou
variantách stejný percentil. Výsledkem je stejné rozdělení dat, je silně závislé na vzorku
(použitelné jen u velkých souborů).
◦ Používá se i pro standardizaci nenormálních skórů na normální.
◦ Percentilové vyvažování není vyvažování, percentil z principu ztrácí část informace. Žádné zvláštní požadavky na
data.
IRT vyvažování bylo prvními hromadnými aplikacemi IRT do praxe.
IRT equating: Princip
IRT používá „full-information“ estimátor.
◦ Pokud chybí data náhodně (MAR), odhady parametrů položek nejsou ovlivněny.
Pokud jsou parametry položek „na stejné škále“ (jsou vyvážené) a položky jsou
lokálně nezávislé, latentní rys lze odhadnout pomocí jakýchkoli položek.
Různé sety položek jsou vyváženy s pomocí společných prvků.
◦ Anchor items – několik položek administrovaných ve více setech.
◦ Anchor tests – celé soubory společných položek.
◦ Anchor persons – osoby, které absolvují oba test (za předpokladu stále shodné úrovně rysu).
IRT equating: Sběr dat
Celá řada různých designů.
Designy s jednou výzkumnou skupinou: single-group design.
◦ Každá osoba absolvuje oba testy (counterbalancing = střídání pořadí).
◦ Případně část respondentů absolvuje oba testy (common-person design).
Designy s náhodnými skupinami: random-group design, random-equivalent-group.
◦ Respondenty náhodně přiřadíme do výzkumných skupin. Předpokládáme, že jsou ekvivalentní.
Designy se společnými položkami:
◦ Dvě nezávislé/nenáhodné skupiny, ale oba testy mají společné položky (tzv. „kotvu“ – anchor test),
které slouží ke kalibraci. Největší spolehlivost a hlavní výhoda IRT.
◦ Ta může, ale nemusí být zahrnuta pro zjištění celkového skóru.
◦ Kotev může být více („planned missing data design“).
Bolsinova, M., & Maris, G. (2016; suppl. mat)
položky
respondenti
: anchor-item design
: post-equating design
post-equating
: design
Bolsinova, M., & Maris, G. (2016; suppl. mat)
položky
respondenti
: anchor-item design
post-equating
: design
: post-equating design
Bolsinova, M., & Maris, G. (2016; suppl. mat)
položky
respondenti
: anchor-item design
: post-equating design
post-equating
: design
Bolsinova, M., & Maris, G. (2016; suppl. mat)
položky
respondenti
Design použitý v Caribbean Secondary Education Certificate (Stancel-Piątak, Cígler, Wild, 2018).