Přednáška 8–9: Teorie odpovědi na položku 2. 11. a 9. 11. 2021 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler | hynek.cigler@mail.muni.cz Fundamentální („základní“) měření 1. Přímé měření: není odvozené z jiného měření, měří se přímo objekt... ◦ Délka (metr), váha (rovnoramenné váhy)... ... nebo 2. nepřímé měření: je odvozené pomocí aditivních operací z naměřených hodnot. ◦ Nepřímé měření: Objem, čas, teplota, barva či síla zemětřesení (Richterova stupnice). Podobné staršímu dělení na intensivní vs. extensivní veličiny, avšak vlastnost měření. ◦ Změna preferovaného principu měření u některých veličin (skládací metr vs. laserový dálkoměr). Výsledkem je intervalová (příp. poměrová) škála s aditivní strukturou. ◦ Aditivita: možnost převést funkci „+“ do „ד a základní aritmetické operace. Např. f(a + b) = f(a) + f(b). ◦ Hodnoty tak lze „sčítat“ a „odčítat“. Důsledky: ◦ Měření je „nezávislé“ na měřicím nástroji. ◦ Měřicí škála stále stejná pro všechny úrovně naměřených hodnot. Připomenutí měření v rámci CTT Měření v rámci CTT je založeno na Stevensově definici. ◦ Výsledná (položková) data jsou proto nominální nebo ordinální, málokdy intervalová. ◦ Ze Stevensova pohledu je „měřením“ již odpověď na položku. ◦ Numerická data ale neznamenají, že jde o „čísla“ v pravém slova smyslu. Další CTT analýza ordinální není (součet položek...). ◦ CTT pouze předpokládá, že standardizované skóry odvozené z hrubých skórů jsou intervalová data. Dodržení aditivity neřeší. ◦ Pro výpočty používá míry centrální tendence a rozptylu (regrese, FA). ◦ Zachází tedy se škálami, jako kdyby fundamentální byly. Kdy zejména to vadí? Jde o měření? | Likertova škála Rosenber Self-Esteem Scale (první 4 položky) souhlasím spíše souhlasím spíše nesouhlasím nesouhlasím Jsem se sebou vcelku spokojený/spokojená. 3 2 1 0 Občas si myslím, že jsem k ničemu. 0 1 2 3 Cítím, že mám řadu dobrých vlastností. 3 2 1 0 Cítím, že toho není mnoho, na co bych u sebe mohl/mohla být hrdý/hrdá. 0 1 2 3 Celkový skór: suma počtu bodů z dílčích položek. Jde o měření? | Měření pozornosti Celkový skór 1: Počet prvků/řádků za jednotku času. Alternativní skór 1: Čas průchodu testem. Celkový skór 2: Počet chyb. Test pozornosti d2 Postupujte po řádcích a zaškrtněte všechna „d“ s 2 značkami nad nebo pod písmenem. https://commons.wikimedia.org/wiki/File:D2-Test.jpg Měření v rámci CTT Dotazník pro pacienty s anorexií (př. Bond & Fox, 2009): ◦ 1. Pravidelně zvracím, abych si udržel/a svou váhu. ◦ 2. Počítám gramy tuku na jídle, které jím. ◦ 3. Tvrdě cvičím, abych spálil/a kalorie. Odpovědi: nesouhlasím (1), spíše nesouhlasím (2), tak napůl (3), spíše souhlasím (4), souhlasím (5) ◦ rxx' = 0,75; M = 3; SD = 3; ◦ SE = 1,5, 𝐶𝐼95% = 2,94 otázka respondent 1 respondent 2 1 spíše nesouhlasím (2) souhlasím (5) 2 spíše souhlasím (4) souhlasím (5) 3 souhlasím (5) nesouhlasím (1) hrubý skór: 11 11 ◦ CTT: oba lidé mají z hlediska CTTstejný hrubý skór, a tedy i míru anorexie i intervaly spolehlivosti. ◦ IRT: výsledky nejsou rovnocenné – jiný „person-fit“ (1PL), případně i chyby měření a skóry (2PL). (6,06–11,94) (6,06–11,94) Příklad: Nezávislost měření na nástroji TIM3–5: Test pro identifikaci matematicky nadaných dětí ◦ Test je velmi obtížný, aby dobře měřil nadprůměr. ◦ rxx‘ = 0,82; M = 8,51; SD = 6,72; min = 0; max = 33 ◦ Předpoklad: Rozložení matematických schopností je v populaci normálně rozložené. ◦ Závěr: Jaké budou naměřené skóry? 0 10 20 30 40 50 60 70 0 3 6 9 12 15 18 21 24 27 30 33 36 Rozložení hrubých skórů (CTT) 0 5 10 15 20 25 30 35 40 45 -1,3 -1 -0,7 -0,4 -0,1 0,2 0,5 0,8 1,1 1,4 1,7 2 2,3 2,6 Rozložení standardizovaných skórů (CTT) 0 5 10 15 20 25 30 35 40 45 -5,01 -4,41 -3,81 -3,21 -2,61 -2,01 -1,41 -0,81 -0,21 0,39 0,99 1,59 2,19 2,79 3,39 3,99 4,59 Rozložení IRT odhadů Jak by vypadalo rozložení u testu, měřícího deficit (dyskalkulie...)? Měření v rámci CTT je vždy vztaženo k měřícímu nástroji. Měření v rámci IRT je (více méně) na nástroji nezávislé. Kolmogorův-Smirnovův test (MC, p-value) ročník 3 (n=243) 4 (n=276) 5 (n=278) hrubé skóre ,000 ,001 ,001 W- skóre ,000 ,065 ,061 Příklad: Nezávislost měření na nástroji Extrémní příklad Máme položku ve faktorové analýze ◦ Skórovaná ne=0, tak napůl=1, ano=2. ◦ Průsečík (intercept): b = 1. ◦ Faktorový náboj: λ = 0,5. Faktor má průměr 0 (SD=1). E 𝑥𝑖𝑝 = 𝜆𝑖 𝜃 𝑝 + 𝑏𝑖 Jaká je očekávaná odpověď, E(xi), respondenta s hodnotou faktoru... ... θ = 0 ? ◦ E(xi) = 1 ... θ = 1 ? ◦ E(xi) = 1,5 ... θ = -1 ? ◦ E(xi) = 0,5 ... θ = 2 ? ◦ E(xi) = 2 ... a konečně θ = 3 ? ◦ E(xi) = 2,5 Vývoj teorií odpovědi na položku 50. a 60. léta, další rozvoj v 80. letech (počítače). Nezávisle na sobě G. Rasch (matematik), F. M. Lord (psycholog, psychometrik) a P. F. Lazarsfeld (sociolog). Jde o stochastickou úpravu původně deterministického Guttmanova modelu. Tři hlavní stádia vývoje: ◦ Předchůdci, do 50. let (Binet, Guttman, Thurstone...) ◦ Raný vývoj, 50.–60. léta (Rasch, Novick, Lord...) ◦ Rozvoj, 70.–80./90. léta (Bock, Samejima...) ◦ Sjednocování a zobecňování (od 90. let) Paul Felix Lazarsfeld (1901–1976) Louis Guttman (1916–1987) Frederic M. Lord (1912–2000) van der Linden, W. J. (2016). Introduction. In W. J. van der Linden (ed.), Handbook of Item Response Theory, vol. 1: Models, pp. 1–10. Boca Raton: CRC Press. Jaký je vztah měřeného rysu a odpovědi na binární položku (správně/špatně)? Například vztah „fluidní inteligence“ a správné/špatné odpovědi na jednu úlohu v Ravenových progresivních matricích. Srovnání modelů měření (Borsboom, 2005) KLASICKÁ TESTOVÁ TEORIE Měřený atribut: Pravý skór daného člověka v daném testu. Lineární vztah pravého a pozorovaného skóre. Homoskedasticita ◦ Stejný chybový rozptyl pro všechny respondenty a všechny úrovně pravého skóre MODELY S LATENTNÍMI PROMĚNNÝMI Měřený atribut: Předpokládaný latentní rys. Faktorová analýza ◦ Lineární vztah pozorované odpovědi a latentního rysu. ◦ Homoskedasticita reziduí. Teorie odpovědi na položku ◦ Nelineární (zpravidla logistický) vztah pozorované odpovědi a latentního rysu. Základy IRT: Charakteristická funkce položky (ICC) Výkon probanda v položce lze odhadnout pomocí množiny latentních rysů. ◦ Schopnosti respondenta. ◦ Parametry položek. Item Characteristic Curve (ICC): ◦ Má (zpravidla) přibližně tvar kumulativního normálního rozdělení. ◦ Popisuje vztah mezi schopností probandů a očekávaným výkonem v dané položce. ◦ Pravděpodobnost správné odpovědi podle parametrů položky a probanda. Jednoparametrový Raschův model (1PL) Logistický vztah rysu a odpovědi: 𝑃 𝑥𝑖 = 1 𝜃 = 𝑒 𝜃−𝑏 𝑖 1 + 𝑒 𝜃−𝑏 𝑖 Analogicky po úpravě: ln 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 = 𝜃 𝑝 − 𝑏𝑖 ◦ e = Eulerova konstanta ◦ ln = přirozený logaritmus (se základem e) ◦ Pro zjednodušení zápisu 𝑃 𝑥𝑖 = 1 𝜃 𝑝 = 𝑃𝑖𝑝 𝑃 𝑥𝑖 = 1 𝜃 je pravděpodobnost správné odpovědi na položku i při schopnosti . ◦ Tato pravděpodobnost se někdy nazývá také „odhad pravého skóre“ respondenta v dané položce (u binárních položek), analogie k E(𝜏 𝑝𝑖). Theta (𝜃 𝑝) je úroveň schopnosti respondenta 𝑝. ◦ Subskript p se zpravidla vynechává. 𝑏𝑖 je parametr obtížnosti položky 𝑖. ◦ Parametr obtížnosti 𝑏𝑖 položky 𝑖 je bod na škále schopnosti, v němž je pravděpodobnost správné odpovědi respondenta j se stejnou mírou schopnosti (𝜃 𝑝 = 𝑏𝑖) na danou položku 𝑃 𝑥𝑖 = 1 𝜃 = 0,5. snadnější položka / obtížnější položka / nižší úroveň rysu vyšší úroveň rysu Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = bi = -2 má 50 % pravděpodobnost správné odpovědi. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = bi = -2 má 50 % pravděpodobnost správné odpovědi. ◦ Analogicky respondent s θ = 0 odpoví správně s 88% pravděpodobností: ◦ 𝑃𝑖 𝜃 = 𝑒 0+2 1+𝑒 0+2 = 0,88. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = bi = -2 má 50 % pravděpodobnost správné odpovědi. ◦ Analogicky respondent s θ = 0 odpoví správně s 88% pravděpodobností: ◦ 𝑃𝑖 𝜃 = 𝑒 0+2 1+𝑒 0+2 = 0,88. ◦ A respondent s θ = 2 → 95 %. ◦ 𝑃𝑖 𝜃 = 𝑒 0+4 1+𝑒 0+4 = 0,98. Dvouparametrový model (2PL) Diskriminační parametr je rozlišovací schopnost položky: ukazuje, jak moc se liší „dobří“ a „špatní“ respondenti v očekávané pravděpodobnosti správné odpovědi. 𝑃𝑖 𝜃 = 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 ai je diskriminační parametr pol. i – naklonění ICC v bodě b. ◦ čím je křivka „plošší“, tím méně rozlišuje Analogií ve faktorové analýze je faktorový náboj a v CTT položkové analýze korigovaná korelace. Charakteristická křivka položky 2PL Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál. Charakteristická křivka položky 2PL -4 -2 0 2 4 0.00.20.40.60.81.0 IRT odhad pravděpodobnost/true-score Diskriminační parametry (theta=1): a=0,5; p=0,70 a=1; p=0.85 a=2; p=0.97 Tříparametrový model (3PL) Zavádí parametr pseudouhádnutelnosti 𝑐𝑖 pro položky vícenásobné volby (multiple-choice): 𝑃𝑖 𝜃 = 𝑐𝑖 + 1 − 𝑐𝑖 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 ◦ ci je parametr (pseudo)uhádnutelnosti pro položku i. V multiple-choice testech lze nahradit Bockovým NRM modelem. ◦ NRM je nejvíce obecný model, jehož specifikací lze nahradit (téměř) cokoliv. Při prostém tipování je pravděpodobnost „náhodně správné“ odpovědi teoreticky 1/n, kde n je počet možných odpovědí. ◦ Tedy n-1 distraktorů a právě 1 správné odpovědi. Tento předpoklad je příliš silný, proto je lepší pro každou položku tuto pravděpodobnost odhadnout zvlášť. ◦ Některé distraktory mohou být evidentně chybné a respondent je vyloučí. ◦ Ideálně by se takové distraktory samozřejmě neměly vyskytovat... chytáky nefungují. -4 -2 0 2 4 0.00.20.40.60.81.0 IRT odhad pravděpodobnost/true-score Parametry uhádnutelnosti: c = 0 c = 0,25 c = 0,5 Charakteristické křivky položek 3PL c P(θ=0) P(θ=1) 0 0,5 0,73 0,25 0,63 0,80 0,5 0,75 0,87 Pozor – přestává platit poučka ze 2PL modelu: 𝜃 𝑝 = 𝑏𝑖 ⇒ 𝑃𝑖𝑗 = 0,5 ! V bodě 𝑏𝑖 je ale ICC nejstrmější. 𝑏𝑖 = 0 pro všechny položky Čtyřparametrový model (4PL) Použití spíše výjimečně pro specifické účely. ◦ Např. „projektivní hypotéza“ u TAT (Ťápal, unpublished manuscript). Zpravidla malé výhody, zahrnutím dalších parametrů se naopak významně zhoršují vlastnosti modelu. ◦ Někdy je ale výhodné pracovat s horní namísto spodní asymptotou. 4PL: parametr „ledabylosti“ – ani nejlepší respondent nemá pravděpodobnost správné odpovědi rovnu 100 %. 𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 ◦ di je parametr ledabylosti; zpravidla bývá blízký 1. Charakteristická křivka 4PL modelu -4 -2 0 2 4 0.00.20.40.60.81.0 IRT odhad pravděpodobnost/true-score 0.10.30.50.70.9  Parametry:  a = 1  b = 0  c = 0,25  d = 0,95  Pravěpodobnost:  Pi(θ=0)=0,61  Pi(θ=1)=0,77 𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖 𝑒 𝐷𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝐷𝑎 𝑖 𝜃−𝑏 𝑖 Srovnání 1PL–3PL modelů jednoparametrový model ◦ pouze parametr obtížnosti položky bi dvouparametrový model ◦ přidává diskriminační parametr ai tříparametrový model ◦ přidává parametr pseudo-uhádnutelnosti ci ◦ Ostatní symboly: ◦ schopnost respondenta: θ ◦ pravděpodobnost správné odp.: Pi ◦ i – číslo položky ◦ 4PL: di = 1 → 3PL ◦ 3PL: ci = 0 → 2PL ◦ 2PL: ai = 1 (nebo ai = a) → 1PL On-line ilustrace http://fssvm6.fss.muni.cz/ICC/ https://shiny.cs.cas.cz/ShinyItemAnalysis/ Raschův model 1PL model bývá označovaný jako Raschův. To ale není tak docela přesné. Raschovy modely jsou specifická kategorie v rámci IRT modelů. ◦ Odlišná epistemologická východiska. ◦ Zpravidla odlišný účel. ◦ Zpravidla odlišná identifikace modelu. ◦ IRT modely – zpravidla fixován rozptyl faktoru (SD = 1). ◦ Raschovy modely – zpravidla fixován diskriminační parametr (a = 1). Srovnání Raschova a 1PL–3PL přístupu RASCHŮV MODEL (1PL) Spíše konfirmační princip (data musí odpovídat modelu). Pouze 1. parametr, a=1, zbytek je „šum“. ◦ Všechny pol. diskriminují (teoreticky) stejně. Cílem je fundamentalita škály, invariance odhadu. Menší závislost odhadů na položkách/respondentech. Nižší počet parametrů → nižší počet respondentů. Vhodnější pro konstrukci diagnostických testů (SB-V, Leiter-3, v ČR pak WJ-IV, KIT a další) Možnost žádných předpokladů o rozložení latentního rysu (JML estimátor). IRT (1PL, 2PL, 3PL...) Spíše explorační princip (přizpůsobuje model datům). Počet parametrů, který nejlépe popíše data. ◦ Diskriminace položek se může lišit. Důraz je kladen na výběr „nejlepšího“ modelu. Vyšší závislost odhadů na položkách/respondentech. Vyšší počet parametrů → vyšší počet respondentů. Vhodnější pro test-equating v high-stakes testech (SAT, GRE, SCIO, SK maturita) a adaptivní testování. Zpravidla předpoklad normálního rozdělení (MML, CML aj. estimátory). Různé formáty parametrizace a zápisu Rozdílné zápisy modelované pravděpodobnosti: 𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝 = 𝑃𝑖 𝜃 = 𝑃𝑖𝑝 = 𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝, 𝑏𝑖, 𝑎𝑖, 𝑐𝑖 Rozdílné možnosti zápisu (zde 1PL) modelu: 𝑃𝑖𝑝 = 𝑒 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝜃 𝑝−𝑏 𝑖 = 1 1 + 𝑒− 𝜃 𝑝−𝑏 𝑖 = exp 𝜃 𝑝 − 𝑏𝑖 1 − exp 𝜃 𝑝 − 𝑏𝑖 = 1 1 + exp 𝑏𝑖 − 𝜃 𝑝 Exponenciální vs. logistický zápis: 𝑃𝑖𝑝 = 𝑒 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝜃 𝑝−𝑏 𝑖 ~ ln 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 = 𝜃 𝑝 − 𝑏𝑖 Tradiční IRT parametrizace (2PL modelu): 𝑃𝑖𝑝 = 𝑒 𝑎 𝑖 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃 𝑝−𝑏 𝑖 Intercept-slope parametrizace: 𝑃𝑖𝑝 = 𝑒 𝑎 𝑖 𝜃 𝑝+𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃 𝑝+𝑏 𝑖 Výhody intercept-slope parametrizace Výhoda 1: multidimenzionální (Reckaseho, kompenzatorní) model 𝑃𝑖𝑝 = 𝑒 𝑎 𝑖1 𝜃 𝑝1+𝑎 𝑖2 𝜃 𝑝2+ … +𝑎 𝑖𝑛 𝜃 𝑝𝑛+𝑏 𝑖 1 + 𝑒 𝑎 𝑖1 𝜃 𝑝1+𝑎 𝑖2 𝜃 𝑝2+ … +𝑎 𝑖𝑛 𝜃 𝑝𝑛+𝑏 𝑖 Výhoda 2: srovnání s faktorovou analýzou Faktorová analýza: E 𝑥𝑖𝑝 = 𝑎𝑖1 𝜃 𝑝1 + 𝑎𝑖2 𝜃 𝑝2 + … + 𝑎𝑖𝑛 𝜃 𝑝𝑛 + 𝑏𝑖 ◦ S reziduálním rozptylem 𝜎𝑖 2 shodným pro všechny odpovědi na danou položku. ◦ faktorový náboj 𝑎𝑖 se zpravidla značí jako 𝜆𝑖 IRT: ln 𝑃 𝑖𝑝 1−𝑃 𝑖𝑝 = 𝑎𝑖1 𝜃 𝑝1 + 𝑎𝑖2 𝜃 𝑝2 + … + 𝑎𝑖𝑛 𝜃 𝑝𝑛 + 𝑏𝑖 E 𝑥𝑖𝑝 = 𝑃𝑖𝑝 ◦ S reziduálním rozptylem 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 (rozptyl binární proměnné) různým napříč respondenty. Přesnost měření v IRT IRT skóry Další modely IRT 2. ČÁST PŘEDNÁŠKY Předpoklady IRT Latentní rys existuje a jde o spojitou intervalovou proměnnou. ◦ Zpravidla navíc i normálně rozloženou. ◦ Ale... diskrétní IRT modely, LCA, estimátory s nenormálně rozloženým latentním rysem. Lokální nezávislost položek. ◦ Veškeré vzájemné vztahy položek lze vysvětlit působeným modelovaných latentních rysů. ◦ Tzn. parciání vztah položek po kontrole úrovně latentního rysu je nulový. ◦ V případě jediného rysu: jednodimenzionalita. Odpovědi lidí na položku lze modelovat prostřednictvím ICF. ◦ Charakteristická funkce položky (ICF = Item Characteristic Function) ◦ Někdy též Item Response Function (IRF), Item Characteristic Curve (ICC) atd. ◦ Ale... Mokkenovo škálování. Obsah druhé části přednášky Charakteristická funkce testu. Odhad míry latentního rysu, IRT škálování, IRT skóry. Práce s chybou: Informační funkce položky, testu, chyba měření. Shoda modelu s daty. IRT modely pro polytomní data. Ordinální faktorová analýza (item-factor analysis). Klíčové oblasti využití IRT. ◦ Počítačově adaptivní testování. ◦ Vyvažování paralelních forem testu. Charakteristická funkce testu Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/ca talog/book/968 Charakteristická funkce testu (TCF) Test Characteristic Function/Curve (TCF/TCC). Jde o prostý součet jednotlivých ICC: 𝑇𝐶𝐶 𝜃 = ෍ 𝑖=1 𝑛 𝐼𝐶𝐶𝑖 𝜃 = ෍ 𝑖=1 𝑛 𝑃𝑖 𝜃 = E 𝑇 𝜃 ◦ kde n je počet položek. Hodnota očekávaného pravého (E 𝑇 𝜃 ), případně pozorovaného (E 𝑋 𝜃 )1 skóre u respondentů s určitou mírou latentního rysu 𝜃. 1 Záleží na nastavení modelu, estimátoru atd., není to podstatné. Charakteristická funkce testu (TCF) Charakteristická funkce testu (TCF) TCF lze využít při skórování testu. 1PL: TCC izomorfní, každému X odpovídá právě jedno θ. Toho se využívá v psychologických testech. 𝑇𝐶𝐶 𝜃 ↔ 𝑋 2PL: vztah není jednoznačný; diskriminační parametr dává rozdílné váhy položkám. Záleží, které byly zodpovězeny správně. 𝑇𝐶𝐶 𝜃 → 𝑋 ◦ Každému HS odpovídá konečný počet odhadů latentních rysů podle konkrétních odpovědí. ◦ Z hrubého skóre lze na úroveň latentního rysu usuzovat jen se ztrátou reliability. ◦ Zpravidla se pro skórování používají přímo odpovědi na jednotlivé položky. Řada dalších využití, např.: ◦ Observed score IRT equating. ◦ Differentional test functioning (DTF). Srovnání TCC Raschova a 2PL modelu LSAT7 data v mirt balíčku (5 binárních položek) Srovnání TCC Raschova a 2PL modelu LSAT7 data v mirt balíčku (5 binárních položek) IRT škálování IRT skóry IRT škály Cígler, H. (2018). Měření matematických schopností. Brno: Masarykova univerzita. Kde je (sakra) to celkové skóre? Problém zpětné inference (epistemologie). ◦ Model: Latentní rys způsobuje odpovědi na položky. ◦ Praxe: Z odpovědí na položky usuzujeme na míru rysu. ◦ Známe-li parametry (obtížnost...) položek, můžeme odhadnout nejpravděpodobnější úroveň latentního rysu, pro kterou bychom právě takové odpovědi pozorovali. Při výzkumu (např. standardizace metody): ◦ Odhadujeme parametry položek i osob naráz. ◦ Parametry položek uschováme pro budoucí použití, parametry osob se použijí pro tvorbu norem (IQ, T-skóry, percentily...) Při praktickém použití již standardizované metody: ◦ Z dopředu „nakalibrovaných“ položek usuzujeme na míru rysu, kterou pak převedeme na standardní skóry. Logitový skór Výstupem IRT (Raschova modelu, 2PL+ to může být komplikovanější) je skór v logitech. ◦ Analogie hrubého skóre v CTT. Interpretace: 𝑙𝑜𝑔𝑖𝑡 = ln 𝑃 𝜃 1 − 𝑃 𝜃 Kde 𝑃 𝜃 je typicky podíl položek, které respondent zvládne splnit správně. ◦ Platí jen přibližně! Logity převádějí pravděpodobnost (resp. percentil) na intervalovou proměnnou. 𝜽 − 𝒃𝒊 P -5 0,7% -4,5 1,1% -4 1,8% -3,5 2,9% -3 4,7% -2,5 7,6% -2 11,9% -1,5 18,2% -1 26,9% -0,5 37,8% 0 50,0% 0,5 62,2% 1 73,1% 1,5 81,8% 2 88,1% 2,5 92,4% 3 95,3% 3,5 97,1% 4 98,2% 4,5 98,9% 5 99,3% IRT škálování Samotný skór v logitech se pro praktické použití dále standardizuje. ◦ Intervalová škála rysu napříč všemi skupinami respondentů. ◦ Z ní IQ, T-skóry apod. pro daný ročník/věk/pohlaví atd. Kromě toho specifické (typicky Raschovské) skóry: ◦ W-skóry: Vhodné pro sledování růstu či vývoje, nezávisí na vzorku. ◦ W 500 ve věku 10;0 (příp. na začátku 5. ročníku) ◦ Vzdálenost 𝑏 − 𝜃 = 10𝑊 odpovídá změně pravděpodobnosti správné odpovědi z 50 % na 75 % (resp. 25 %). ◦ Lze predikovat úspěch v položkách/subtestech. ◦ RPI (Relative Proficiency Index): X/90, závisí na vzorku. ◦ Index relativní výkonnosti. Jaká je pravděpodobnost X správné odpovědi na položky, které lidé ze stejné normalizační skupiny odpovídají s 90% pravděpodobností správně? (Pro jiné základy zlomku kalkulačka zde.) Jaffe, L. E. (2009). Development, interpretation, and application of the W score and the relative proficiency index (Woodcock-Johnson III Assessment Service Bulletin No. 11). Rolling Meadows, IL: Riverside Publishing. 𝑊 = 10 ln 3 𝜃 − ҧ𝜃10 + 500 𝑊 = 9,1 𝜃 − ҧ𝜃10 + 500 • kde ҧ𝜃10 = průměrný skór 10letých • W-skóre má 9,1krát užší měřítko než logit. IRT škálování Klíčová výhoda IRT škálování: Odhad latentního rysu není závislý na použitých položkách. ◦ V CTT je naopak pravý skór „operacionalizován“ položkami. ◦ Chybějící data nejsou problém Toho využívají IRT metody, např.: ◦ Subtesty dělené podle věku, ale stále srovnatelné pomocí W-skóru. ◦ Různé „startovací položky“. ◦ Pravidla ukončení. Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Standardizace BACH: Testy školních dovedností: Obecné pokyny. Verze dokumentu 1.02. Masarykova univerzita a Propsyco. Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Testy školních dovedností (BACH): Matematika. Masarykova univerzita a Propsyco. IRT škálování Příklad z měření fluidní inteligence: ◦ Dítěti v 5 letech jsme naměřili IQ 100. ◦ Při retestu v 8 letech má IQ 85. Inteligence dítěte se: ... ? ◦ a) zvýšila ◦ b) nezměnila ◦ c) snížila ◦ d) nelze říci ◦ e) nechci odpovídat http://mindsbasis.blogspot.cz/2016/03/rasch-measure-of-intelligence-age-2-25.html Vývoj indexů ve WJ-IV v závislosti na věku. Raschův model umožňuje srovnávání vývoje průměrné úrovně rysů v čase. Ve vícePL IRT modelech problematické (nestejná „škála“). McGrew, K. S., LaForte, E. M., & Schrank, F. A. (2014). Technical Manual. Woodcock Johnson IV. Rolling Meadows, IL: Riverside. Krátký inteligenční test (KIT) Srovnání vývojových křivek použito jako důkaz konstruktové validity. Cígler, H. (2018). Měření matematických schopností. Brno: Masarykova univerzita. LEITER-3 (Leiter International Performance Scale) položky jednotlivé subtesty W-škála věkové ekvivalenty Přehled různých typů skórů Hrubé skóry (CTT součtové skóry, IRT odhady) – nelze samy o sobě interpretovat. Odvozené skóry (percentily, IQ a další standardní skóry) poskytují normativní srovnání s referenční skupinou. Jsou závislé na vlastnostech škály a vzorku (M, SD). Ipsativní skóry poskytují intraindividuální srovnání odvozených skórů (diagnostika profilu atp.). ◦ Statisticky, klinicky významný rozdíl... W-skóry zasazují výkon člověk na škálu nezávislou na věku a populaci společnou pro typ testů. ◦ Do jisté míry nezávislou na počtu a konkrétním znění položek. RPI index poskytuje měřítko pro srovnání rozdílu výkonu probanda a referenční skupiny na snadno představitelné škále. Závislý na průměru (M), ale nikoli na variabilitě (SD). ◦ Rozdíl 30 IQ v pěti a dvaceti letech znamená velmi odlišný rozdíl v reálném výkonu, protože SD5 > SD20. Věkové a ročníkové ekvivalenty zasazují respondenta na vývojovou škálu. Zóna nejbližšího vývoje. Chyba měření v IRT Informační funkce položky Informační funkce testu Chyba měření Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074 Pojetí reliability a přesnosti měření v IRT IRT odděluje úvahu o: ◦ Chybě měření (a intervalech spolehlivosti odhadu). ◦ Tzv. informační funkce položky/testu. ◦ Teoreticky nezávislá na výzkumném souboru. ◦ Reliabilitě, celkové spolehlivosti testu. ◦ Odhadnuté na základě parametrů vzorku a chyb měření. V IRT je tedy odhad SE používán pro odhad reliability. ◦ V CTT spíše naopak (ale srov. GT). Informační funkce položky (IIF) Item Information Function/Curve (IIF/IIC) Informační funkce položky 𝐼𝑖 𝜃 je funkcí jednotlivých parametrů modelu. ◦ Pro každou úroveň schopnosti 𝜃 jiná. Binární položky: 𝐼𝑖 𝜃 = 𝑃𝑖 ′ 𝜃 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ 𝑃𝑖 𝜃 = Charakteristická funkce položky ◦ 𝑃𝑖 ′ 𝜃 = první derivace této funkce. ◦ 1 − 𝑃𝑖 𝜃 = pravděpodobnost jiné než správné odpovědi. Informační funkce položky (IIF) 1PL MODEL (RASCHŮV) Pro 1PL model platí 𝑃𝑖 ′ 𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ a lze tedy zjednodušit: 𝐼𝑖 𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ V Raschově binárním modelu mají všechny položky stejný průběh funkce (diskriminační parametr), liší se jen umístěním maxima. ◦ Maximum je v bodě obtížnosti pol. (𝑏𝑖). ◦ Maximum funkce je vždy 0,5 ∙ 0,5 = 0,25. 2PL, 3PL MODELY Pro 2PL model platí 𝑃𝑖 ′ 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ a lze tedy zjednodušit: 𝐼𝑖 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 Informační funkce 3PL modelu je: 𝐼𝑖 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 − 𝑐𝑖 2 1 − 𝑐𝑖 2 1 − 𝑃𝑖 𝜃 𝑃𝑖 𝜃 ◦ fixováním 𝑐𝑖 = 0, resp. 𝑎𝑖 = 1 lze dosáhnout 2PL, resp. 1PL IIF. ◦ U 3PL není maximum v bodě obtížnosti. Informační funkce položky Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=2,5; b=-2; c=0; d=1 https://itemanalysis.com/irt-illustrator/ Informační funkce položky Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=1; b=0; c=0,5; d=1 https://itemanalysis.com/irt-illustrator/ (Pozor, osa y má odlišné měřítko od předchozího snímku.) Informační funkce položky Celková informační funkce položky (plocha pod křivkou) závisí na: ◦ Diskriminačním parametru (+). ◦ Parametru pseudouhádnutelnosti (-). Velikost informace položky se liší pro jednotlivé respondenty podle jejich schopnosti θ a závisí dále na: ◦ Blízkosti parametru obtížnosti a latentního rysu respondenta. ◦ Položka přináší nejvíce informace, když je ICC nejstrmější, a tedy pravděpodobnost správné odpovědi 𝜃 = 𝑏𝑖 (1PL, 2PL). ◦ Toho se využívá při počítačově adaptivním testování (CAT). Informační funkce testu (TIF) a chyba měření Informační funkce testu 𝐼 𝜃 je součtem informačních funkcí jednotlivých položek: 𝐼 𝜃 = ෍ 𝑖=1 𝑛 𝐼𝑖 𝜃 ◦ (Analogie k CTF.) Lze ji chápat jako relativní nepřítomnost chybového rozptylu, a proto se chyba měření 𝑆𝐸 liší podle odhadu úrovně lat. rysu ෠𝜃: 𝑆𝐸 ෠𝜃 = 1 𝐼 𝜃 ◦ (tedy čím vyšší informační funkce, tím přesnější měření/menší chyba měření) Interval spolehlivosti potom získáme jednoduše jako: 𝐶𝐼95% ෠𝜃 = 𝜃 ± 𝑧97,5% ∙ 𝑆𝐸෡𝜃 ◦ (Reálně se ale používají různé přesnější bootstrapové techniky). Charakteristická funkce testuCharakteristická funkce položek Charakteristická funkce testuCharakteristická funkce položek Informační funkce testuInformační funkce položek Informační funkce testu a chyba měření Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968 Reliabilita v IRT Stejná definice reliability jako v CTT: 𝑟𝑥𝑥´ = 𝜎 𝑇 2 𝜎 𝑋 2 = 𝜎 𝑇 2 𝜎 𝑇 2+𝜎 𝑒 2 = 𝜎 𝑋 2 −𝜎 𝑒 2 𝜎 𝑋 2 = 1 − 𝜎 𝑒 2 𝜎 𝑋 2 ◦ Interpretace je stejná, jako v CTT. Odhad reliability: ◦ Do vzorce výše dosadíme za 𝜎 𝑋 pozorovanou SD odhadů latentních rysů. ◦ A 𝜎𝑒 = 𝑅𝑀𝑆𝐸 = σ 𝑝=1 𝑁 𝑆𝐸 𝑝 2 𝑁 , kde SEp je standardní chyba každého z N respondentů, a RMSE je tzv. root mean-square error (odmocnina průměrného chybového rozptylu). Takže: 𝑟𝑥𝑥´ = 1 − 𝑅𝑀𝑆𝐸2 𝜎 𝑋 2 = 1 − σ 𝑝=1 𝑁 𝑆𝐸 𝑝 2 𝑁𝜎 𝑋 2 Komplikace: Záleží na estimátoru. ◦ CML, MML a resp. EAP, MAP odhady pracují s odhadem latentního rysu (regrese k průměru) a tedy je odhadován nikoliv 𝜎 𝑋 2 , ale přímo 𝜎 𝑇 2 . A tedy: 𝑟𝑥𝑥´ = 𝜎 𝑇 2 𝜎 𝑇 2+𝑅𝑀𝑆𝐸2 Reliabilita v IRT Interpretace: poněkud komplikovanější než v CTT. V zásadě: reliabilita jako vysvětlený rozptyl. ◦ Podíl rozptylu odhadů faktorových skórů, který lze vysvětlit latentním rysem. Interpretace jako korelace problematická. ◦ Jen přibližně. ◦ Heteroskedascidita chyb odhadu. Lokální reliabilita Pro reliabilitu měření konkrétního respondenta nebo konkrétní skupiny dosadíme za 𝜎𝑒 přímo SE daného odhadu či RMSE spočítaného pro konkrétní skupinu (Daniel, 1999): tzv. „lokální reliabilita“. ◦ Reliabilita testu, „pokud by fungoval všude stejně, jako pro dané respondenty“. ◦ Umožňuje zacílit výběr položek pro určitý testový záměr. ◦ Není reliabilitou v pravém slova smyslu (tj. „statisticky“), ale pro praktické použití je velmi užitečná. Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968 Shoda modelu s daty Na úrovni položky. Na úrovni respondenta. Pravděpodobnost konkrétní odpovědi. Lokální závislost položek. Na úrovni modelu. Shoda modelu s daty NA ÚROVNI CELÉHO MODELU Odpovídají pozorovaná data IRT modelu? Obdobný přístup jako v konfirmační faktorové analýze ◦ χ2, TLI, CFI, RMSEA... ◦ Na hrubých datech zkreslené velkým počtem d.f., proto reprodukované kovarianční matice (Maydeu-Olivares a Joe, 2006; Cai a Hansen, 2013) Umožňuje srovnání modelů navzájem ◦ 1PL vs. 2PL vs. 3PL... (nejen pomocí LRT). IRT lze v tomto ohledu použít namísto běžné EFA/CFA NA ÚROVNI POLOŽKY/RESPONDENTA Na kolik dobře odpovídají pozorované odpovědi 1 respondenta nebo odpovědi na 1 položku zvolenému IRT modelu? Celá řada indexů. ◦ Person fit: identifikace aberantních odpovědí. ◦ Např. pro účely purifikace dat při standardizaci. ◦ Item fit: doplňková informace o kvalitě položky (vedle parametrů modelu) ◦ Testy lokální nezávislosti (analogie reziduálních korelací a modifikačních indexů v FA). Shoda na úrovni respondenta/položky Na rozdíl od CFA lze uvažovat o shodě modelu s daty na úrovni položky/respondenta. ◦ „Odpovídá univariační frekvenční tabulka pozorovaných odpovědí predikovaným odpovědím?“ Využití shody položky s daty: ◦ Vyřazování nefungujících položek, kontrola položek při equatingu, MG IRT a podobně. ◦ Úprava IRT modelu (ICC) pro konkrétní položku. Využití shody respondenta s daty ◦ Identifikace aberantního odpovídání. ◦ Vyřazení respondentů odpovídajících nahodile při standardizačních studiích. Občas se využívá i identifikace konkrétní nepravděpodobné odpovědi. ◦ WJ-IV COG: jsou vyřazeny odpovědi podle tzv. pravidla 5σ (p = 0,00000057). ◦ Například respondent odpoví chybně z důvodů nesouvisejících s měřeným rysem. Shoda položky s daty (item fit) https://philchalmers.github.io/mirt/html/itemfit.html Lokální závislost položek Explorace, zda dvě položky nesouvisí silněji či slaběji, než by odpovídalo modelu. ◦ „Odpovídá bivariační frekvenční tabulka dvou položek tomu, co predikuje model?“ Lze identifikovat prostřednictvím chí-kvadrát testu a odvozených metod. Analogie k reziduální kovarianční matici, případně modifikačním indexům (M.I.) v CFA, nicméně výrazně výpočetně náročnější. ◦ Reziduální kovariance jsou přímo spočítané v rámci modelu. ◦ M.I. lze získat jednoduchými maticovými operacemi, zde je potřeba počítat pro každý pár zvlášť. Velikost efektu (např. Cramerovo V) vs. signifikance... Shoda celého modelu s daty Založen na chí-kvadrát testu stejně jako v CFA. ◦ CFI, TLI, RMSEA, SRMSR, AIC, BIC, saBIC a další. Full-information statistiky: χ2, G2. ◦ Založené na diskrepanční likelihood funkci (G2), resp. diskrepanci pozorované a modelem predikované matici odpovědí (χ2). ◦ Jinými slovy: diskrepance multivariační frekvenční tabulky všech položek. ◦ Jaké jsou předpoklady χ2? Jsou dodrženy? Proto limited-information statistiky: M2, M2 *, C2. ◦ M2, M2 * – univariační a bivariačí frekvence, binární (M2) a polytomické (M2 *) položky. ◦ C2 – varianta pro kratší testy s delší odpověďovou škálou, pouze bivariační frekvenční tabulky. Interpretace indexů CFI, TLI, RMSEA a dalších založených na M2, M2 *, C2 analogická indexům v CFA. Polytomní IRT modely Graded Response Model Generalized Partial Credit Models Tutzův sekvenční model Bockův Nominal Response Model Ordinální faktorová analýza Polytomní IRT modely Určeny pro práci s položkami s více odpověďmi. ◦ Např. Likertova škála 1-7, parciálně správné odpovědi ve výkonovém testu nebo multiplechoice položky. ◦ Na rozdíl od CTT mohou vést k doporučení zvýšit či snížit počet kategorií položek. ◦ Zpravidla 1PL či 2PL. Modely pro nominální či nominální kategorie. 3 hlavní kategorie polytomních modelů1: ◦ difference models (GRM, MGRM) – výhradně ordinální kategorie ◦ divide-by-totals (PCM, GPCM, NRM) ◦ sekvenční modely (Tutzův sekvenční model) 1 Sijtsma, K., & Hemker, B. (2000). A Taxonomy of IRT Models for Ordering Persons and Items Using Simple Sum Scores. Journal of Educational and Behavioral Statistics, 25(4), 391-415. http://www.doi.org/10.2307/1165222 Polytomní modely (z rychlíku) Ordinální data ◦ (Generalized) Partial Credit Model (GPCM, PCM) – původně určený pro výkonová data, kde se skóre položky sestává z dílčích samostatně skórovaných kategorií. ◦ Graded Response Model (GRM) – původně určený pro dotazníky, kde respondent zaznamenává spojitou, kontinuální míru „souhlasu“ na ordinální škále. Nominální data ◦ Nominal Response Model (NRM) – každá odpověďová kategorie je modelovaná zvlášť. ◦ Multiple-choice Model (MCM) – dílčí úprava NRM vhodné pro MC data. Graded Response Model (GRM) Zobecnění 2PL modelu (Samejima, 1969): série 2PL modelů: 𝑃𝑖𝑥 ∗ 𝜃 = 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 𝑃𝑖𝑥 𝜃 = 𝑃𝑖𝑥 ∗ 𝜃 − 𝑃𝑖 𝑥+1 ∗ 𝜃 Dvoukrokový odhad pravděpodobnosti: ◦ Pro každou odpověď 𝑥 je odhadnuta pravděpodobnost 𝑃𝑖𝑥 ∗ 𝜃 , že respondent odpoví touto nebo vyšší odpovědí (vs. nižší). 𝑏𝑖𝑥 - obtížnost kategorie 𝑥 na položce 𝑖. Pro účely výpočtu je nejnižší kategorie 𝑃𝑖 𝑥=0 ∗ 𝜃 = 1 ◦ Výsledná pravděpodobnost konkrétní odpovědi 𝑃𝑖𝑥 𝜃 je rozdílem odhadnuté pravděpodobnosti a pravděpodobnosti o jedna „vyšší/těžší“ odpovědi. Modified Graded Response Model (MGRM, Muraki, 1990); někdy též GRSM. ◦ 𝑃𝑖𝑥 ∗ 𝜃 = 𝑒 𝑎 𝑖 𝜃− 𝑏 𝑖−𝑐 𝑗 1+𝑒 𝑎 𝑖 𝜃− 𝑏 𝑖−𝑐 𝑗 , kde 𝑐𝑗 jsou parametry jednotlivých prahů 𝑗 a 𝑏𝑖 obtížnost položky 𝑖. Graded Response Model (GRM) 𝑃𝑖𝑥 ∗ 𝜃 = 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 𝑃𝑖𝑥 𝜃 = 𝑃𝑖𝑥 ∗ 𝜃 − 𝑃𝑖 𝑥+1 ∗ 𝜃 E 𝑋𝑖 = ෍ 𝑗=1 𝐾 𝑗𝑃𝑖𝑗 ∗ 𝜃 Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074 Nominal Response Model Using the Distractor Categories of Multiple-Choice Items to Improve IRT Linking Ukázka ideal-point modelu https://www.slideserve.com/content/applying-ideal-point-irt-models-to-score-single-stimulus-and-pairwise-preference-personality-items Srovnání modelů Běžné modely: divided-by-total a graded modely. Embretson a Reise (2009) Ordinální faktorová analýza Ordinální faktorová analýza je založená na tetrachorických (binární položky), respektive polychorických korelacích (ordinální položky). Tetrachorická/polychorická korelace: ◦ Existuje spojitá, intervalová, normálně rozložená latentní odpověď (LR, Latent Response). ◦ Ta není přímo pozorovaná (je latentní). ◦ Manifestuje se pouze jako ordinální kategorie. ◦ Pokud LR překročí příslušný práh položky, pozorujeme vyšší kategorii. Tetra/poly korelace jsou odhadovány na základě bivariačních frekvenčních tabulek. Ordinální FA tedy faktoruje matici polychorických korelací. ◦ Tradiční postup: Odhadne se polychorická matice a ta vložena do EFA. ◦ Modernější postup: polychorická matice a parametry FA jsou odhadovány naráz pomocí DWLS/WLSMV estimátoru. Tetrachorická korelace (ρ = 0,6) Tetrachorická korelace (ρ = 0,6) Ordinální faktorová analýza Klasická CFA: latentní faktor způsobuje manifestní odpověď. 𝑋𝑖 = 𝜆𝑖 𝑓 + 𝜈𝑖 + 𝜀, var 𝜀 = 𝜃𝑖 ◦ 𝑓 – faktor, 𝜆𝑖 - faktorový náboj,𝜃𝑖 - reziduální rozptyl Ordinální CFA: latentní faktor způsobuje latentní odpověď (LR). 𝐿𝑅𝑖 = 𝜆𝑖 𝑓 + 𝑣𝑖 + 𝜀, var 𝜀 = 𝜃𝑖 𝐿𝑅𝑖 ≥ 𝜏𝑖 𝑘−1 ∧ 𝐿𝑅𝑖 < 𝜏𝑖𝑘 ⟹ 𝑋𝑖 = 𝑘, 𝜏𝑖0 = −∞ ◦ 𝜏𝑖𝑘 - k-tý práh položky i. Ordinální CFA je probitový Graded Response Model. ◦ S nepatrně odlišnou parametrizací. Vybrané aplikace IRT: Počítačové adaptivní testování (CAT) Equating, linking Typická využití IRT Běžné ověření (konfirmační IRT) a explorace (explorační IRT) faktorové struktury. ◦ Test pak může být skórován klidně s využitím CTT. IRT jako nástroj pro škálování. ◦ Zajímají nás právě IRT odhady latentního rysu. IRT jako výzkumný nástroj (explanační modely). IRT jako model měření. DIF analýza a MG IRT (viz přednáška o férovosti). Další specifická využití: ◦ Počítačové adaptivní testování (CAT) ◦ Vyvažování paralelních forem testu (linking, equating) - souvisí se škálováním. Počítačové adaptivní testování Computerized Adaptive Testing (CAT) 1. myšlenka: Nemá smysl administrovat respondentovi takové položky, které nezpřesní odhad jeho latentního rysu. ◦ Jsou pro něj příliš jednoduché (téměř jistě je odpoví správně) ◦ Případně příliš těžké (téměř jistě odpoví chybně). ◦ Takové položky nesou příliš málo informace (nízká hodnota informační funkce). 2. myšlenka: IRT nevadí chybějící data. Pracuje s dílčími položkami, nikoliv celým testem. Použití: TOEFL, GRE, v ČR A3DW či ATAVT od Schufrieda, Invenio od IVDMR . Počítačové adaptivní testování: Postup 1. Administruji úvodní set položek a odhadnu úroveň latentního rysu. 2. Vyberu a administruji položku, která má pro danou úroveň rysu maximální odpověďovou funkci. ◦ Tedy (u 1PL), jejíž obtížnost je nejblíže úrovni odhadnuté schopnosti (P 𝜃 = 0,5). ◦ Případně nepatrně lehčí (typicky 0,5 < P 𝜃 < 0,7), abych respondenta motivoval. ◦ Často ještě randomizace, aby se neopakovaly stále tytéž položky (s největším a-parametrem). 3. Odhadnu znovu rys. 4. Opakuji kroky 2 a 3, dokud nedosáhnu pravidla ukončení. ◦ Vyčerpám všechny položky nebo cílového počtu položek/času administrace. ◦ Standardní chyba odhadu se sníží pod stanovenou mez. ◦ Apod. Počítačové adaptivní testování: Výhody Efektivnější testování. ◦ Zkrácení testu při zachování reliability / zvýšení reliability při zachování délky. Větší množství položek, každý má trochu jiné položky. ◦ Redukce možnosti opisovat. ◦ Snížení rizika a hlavně důsledků případného úniku položek. ◦ Respondent nemusí odpovídat na neadekvátní položky (příjemnější testování). Lze využít i při individuální administraci. ◦ Např. s využitím administrace na tabletu. Test equating (vyvažování testů) Vyvážení obtížnosti jednotlivých forem testu. ◦ V high stakes testech jednorázové vyvážení – sjednocení obtížností a srovnání probandů napříč formami testu. ◦ V psychologických metodách vyvážení skóru paralelních forem a vyvinutí rovnocenných nástrojů. ◦ Linking (prosté srovnání měřítek) vs. equating (zajištění stejné škály). Předpoklad: Obě formy měří stejný konstrukt (otázka validity). GRE, SAT: od konce 80./začátku 90. let je (v USA) IRT vyvažování high-stakes testů normou. Typické kroky: volba designu, sběr dat, samotná transformace. Test equating (vyvažování testů) Tři tradiční způsoby založené na pozorovaném skóre: ◦ Vyvažování na základě průměru (M) – testy musí mít stejné rozptyly, data musí být normálně rozdělená. 𝑥2 = 𝑥1 + 𝑋2 − 𝑋1 ◦ Lineární vyvažování (M, SD) – rozptyly se mohou lišit, data musí být normální. 𝑥2 = ത𝑋2 + 𝜎2 𝜎1 𝑥1 − ത𝑋1 (transformace přes z-skór) ◦ Equipercentilové vyvažování – varianty jsou upraveny tak, aby tentýž skór měl v obou variantách stejný percentil. Výsledkem je stejné rozdělení dat, je silně závislé na vzorku (použitelné jen u velkých souborů). ◦ Používá se i pro standardizaci nenormálních skórů na normální. ◦ Percentilové vyvažování není vyvažování, percentil z principu ztrácí část informace. Žádné zvláštní požadavky na data. IRT vyvažování bylo prvními hromadnými aplikacemi IRT do praxe. IRT equating: Sběr dat Celá řada různých designů. Designy s jednou výzkumnou skupinou: single-group design. ◦ Každá osoba absolvuje oba testy (counterbalancing = střídání pořadí). ◦ Případně část respondentů absolvuje oba testy (common-person design). Designy s náhodnými skupinami: random-group design, random-equivalent-group. ◦ Respondenty náhodně přiřadíme do výzkumných skupin. Předpokládáme, že jsou ekvivalentní. Designy se společnými položkami: ◦ Dvě nezávislé/nenáhodné skupiny, ale oba testy mají společné položky (tzv. „kotvu“ – anchor test), které slouží ke kalibraci. Největší spolehlivost a hlavní výhoda IRT. ◦ Ta může, ale nemusí být zahrnuta pro zjištění celkového skóru. ◦ Kotev může být více („planned missing data design“). Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti : anchor-item design : post-equating design post-equating : design Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti : anchor-item design post-equating : design : post-equating design Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti : anchor-item design : post-equating design post-equating : design Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti Design použitý v Caribbean Secondary Education Certificate (Stancel-Piątak, Cígler, Wild, 2018).