Přednáška 4–5: Teorie odpovědi na položku 27. 10. a 3. 11. 2020 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler | hynek.cigler@mail.muni.cz Fundamentální („základní“) měření 1. Přímé měření: není odvozené z jiného měření, měří se přímo objekt... ◦ Délka (metr), váha (rovnoramenné váhy)... ... nebo 2. nepřímé měření: je odvozené pomocí aditivních operací z naměřených hodnot. ◦ Nepřímé měření: Objem, čas, teplota, barva či síla zemětřesení (Richterova stupnice). Podobné staršímu dělení na intensivní vs. extensivní veličiny, avšak vlastnost měření. ◦ Změna preferovaného principu měření u některých veličin (skládací metr vs. laserový dálkoměr). Výsledkem je intervalová (příp. poměrová) škála s aditivní strukturou. ◦ Aditivita: možnost převést funkci „+“ do „ד a základní aritmetické operace. Např. f(a + b) = f(a) + f(b). ◦ Hodnoty tak lze „sčítat“ a „odčítat“. Důsledky: ◦ Měření je „nezávislé“ na měřicím nástroji. ◦ Měřicí škála stále stejná pro všechny úrovně naměřených hodnot. Připomenutí měření v rámci CTT Měření v rámci CTT je založeno na Stevensově definici. ◦ Výsledná (položková) data jsou proto nominální nebo ordinální, málokdy intervalová. ◦ Ze Stevensova pohledu je „měřením“ již odpověď na položku. ◦ Numerická data ale neznamenají, že jde o „čísla“ v pravém slova smyslu. Další CTT analýza ordinální není (součet položek...). ◦ CTT pouze předpokládá, že standardizované skóry odvozené z hrubých skórů jsou intervalová data. Dodržení aditivity neřeší. ◦ Pro výpočty používá míry centrální tendence a rozptylu (regrese, FA). ◦ Zachází tedy se škálami, jako kdyby fundamentální byly. Kdy zejména to vadí? Jde o měření? | Likertova škála Rosenber Self-Esteem Scale (první 4 položky) souhlasím spíše souhlasím spíše nesouhlasím nesouhlasím Jsem se sebou vcelku spokojený/spokojená. 3 2 1 0 Občas si myslím, že jsem k ničemu. 0 1 2 3 Cítím, že mám řadu dobrých vlastností. 3 2 1 0 Cítím, že toho není mnoho, na co bych u sebe mohl/mohla být hrdý/hrdá. 0 1 2 3 Celkový skór: suma počtu bodů z dílčích položek. Jde o měření? | Měření pozornosti Celkový skór 1: Počet prvků/řádků za jednotku času. Alternativní skór 1: Čas průchodu testem. Celkový skór 2: Počet chyb. Test pozornosti d2 Postupujte po řádcích a zaškrtněte všechna „d“ s 2 značkami nad nebo pod písmenem. https://commons.wikimedia.org/wiki/File:D2-Test.jpg Měření v rámci CTT Dotazník pro dívky s anorexií (př. Bond & Fox, 2009): ◦ 1. Pravidelně zvracím, abych si udržela svou váhu. ◦ 2. Počítám gramy tuku na jídle, které jím. ◦ 3. Tvrdě cvičím, abych spálila kalorie. Odpovědi: nesouhlasím (1), spíše nesouhlasím (2), tak napůl (3), spíše souhlasím (4), souhlasím (5) ◦ rxx' = 0,75; M = 3; SD = 3; ◦ SE = 1,5, 𝐶𝐼95% = 2,94 otázka respondentka 1 respondentka 2 1 spíše nesouhlasím (2) souhlasím (5) 2 spíše souhlasím (4) souhlasím (5) 3 souhlasím (5) nesouhlasím (1) hrubý skór: 11 11 ◦ CTT: obě dívky mají z hlediska CTTstejný hrubý skór, a tedy i míru anorexie i intervaly spolehlivosti. ◦ IRT: výsledky nejsou rovnocenné – jiný „person-fit“ (1PL), případně i chyby měření a skóry (2PL). (6,06–11,94) (6,06–11,94) Příklad: Nezávislost měření na nástroji TIM3–5: Test pro identifikaci matematicky nadaných dětí ◦ Test je velmi obtížný, aby dobře měřil nadprůměr. ◦ rxx‘ = 0,82; M = 8,51; SD = 6,72; min = 0; max = 33 ◦ Předpoklad: Rozložení matematických schopností je v populaci normálně rozložené. ◦ Závěr: Jaké budou naměřené skóry? 0 10 20 30 40 50 60 70 0 3 6 9 12 15 18 21 24 27 30 33 36 Rozložení hrubých skórů (CTT) 0 5 10 15 20 25 30 35 40 45 -1,3 -1 -0,7 -0,4 -0,1 0,2 0,5 0,8 1,1 1,4 1,7 2 2,3 2,6 Rozložení standardizovaných skórů (CTT) 0 5 10 15 20 25 30 35 40 45 -5,01 -4,41 -3,81 -3,21 -2,61 -2,01 -1,41 -0,81 -0,21 0,39 0,99 1,59 2,19 2,79 3,39 3,99 4,59 Rozložení IRT odhadů Jak by vypadalo rozložení u testu, měřícího deficit (dyskalkulie...)? Měření v rámci CTT je vždy vztaženo k měřícímu nástroji. Měření v rámci IRT je (více méně) na nástroji nezávislé. Kolmogorův-Smirnovův test (MC, p-value) ročník 3 (n=243) 4 (n=276) 5 (n=278) hrubé skóre ,000 ,001 ,001 W- skóre ,000 ,065 ,061 Příklad: Nezávislost měření na nástroji Extrémní příklad Máme položku ve faktorové analýze ◦ Skórovaná ne=0, tak napůl=1, ano=2. ◦ Průsečík (intercept): b = 1. ◦ Faktorový náboj: λ = 0,5. Faktor má průměr 0 (SD=1). Jaká je očekávaná odpověď respondenta... E 𝑥𝑖𝑝 = 𝜆𝑖 𝜃 𝑝 + 𝑏𝑖 ... θ = 0 ? ◦ E(xi) = 1 ... θ = 1 ? ◦ E(xi) = 1,5 ... θ = -1 ? ◦ E(xi) = 0,5 ... θ = 2 ? ◦ E(xi) = 2 ... a konečně θ = 3 ? ◦ E(xi) = 2,5 Vývoj teorií odpovědi na položku 50. a 60. léta, další rozvoj v 80. letech (počítače). Nezávisle na sobě G. Rasch (matematik), F. M. Lord (psycholog, psychometrik) a P. F. Lazarsfeld (sociolog). Jde o stochastickou úpravu původně deterministického Guttmanova modelu. Tři hlavní stádia vývoje: ◦ Předchůdci, do 50. let (Binet, Guttman, Thurstone...) ◦ Raný vývoj, 50.–60. léta (Rasch, Novick, Lord...) ◦ Rozvoj, 70.–80./90. léta (Bock, Samejima...) ◦ Sjednocování a zobecňování (od 90. let) Paul Felix Lazarsfeld (1901–1976) Louis Guttman (1916–1987) Frederic M. Lord (1912–2000) van der Linden, W. J. (2016). Introduction. In W. J. van der Linden (ed.), Handbook of Item Response Theory, vol. 1: Models, pp. 1–10. Boca Raton: CRC Press. Jaký je vztah měřeného rysu a odpovědi na binární položku (správně/špatně)? Například vztah „fluidní inteligence“ a správné/špatné odpovědi na jednu úlohu v Ravenových progresivních matricích. Srovnání modelů měření (Borsboom, 2005) KLASICKÁ TESTOVÁ TEORIE Měřený atribut: Pravý skór daného člověka v daném testu. Lineární vztah pravého a pozorovaného skóre. Homoskedasticita ◦ Stejný chybový rozptyl pro všechny respondenty a všechny úrovně pravého skóre MODELY S LATENTNÍMI PROMĚNNÝMI Měřený atribut: Předpokládaný latentní rys. Faktorová analýza ◦ Lineární vztah pozorované odpovědi a latentního rysu. ◦ Homoskedasticita reziduí. Teorie odpovědi na položku ◦ Nelineární (zpravidla logistický) vztah pozorované odpovědi a latentního rysu. Základy IRT: Charakteristická funkce položky (ICC) Výkon probanda v položce lze odhadnout pomocí množiny latentních rysů. ◦ Schopnosti respondenta. ◦ Parametry položek. Item Characteristic Curve (ICC): ◦ Má (zpravidla) přibližně tvar kumulativního normálního rozdělení. ◦ Popisuje vztah mezi schopností probandů a očekávaným výkonem v dané položce. ◦ Pravděpodobnost správné odpovědi podle parametrů položky a probanda. Jednoparametrový Raschův model (1PL) Logistický vztah rysu a odpovědi: 𝑃 𝑥𝑖 = 1 𝜃 = 𝑒 𝜃−𝑏 𝑖 1 + 𝑒 𝜃−𝑏 𝑖 Analogicky po úpravě: ln 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 = 𝜃 𝑝 − 𝑏𝑖 ◦ e = Eulerova konstanta ◦ ln = přirozený logaritmus (se základem e) ◦ Pro zjednodušení zápisu 𝑃 𝑥𝑖 = 1 𝜃 𝑝 = 𝑃𝑖𝑝 𝑃 𝑥𝑖 = 1 𝜃 je pravděpodobnost správné odpovědi na položku i při schopnosti . ◦ Tato pravděpodobnost se někdy nazývá také „odhad pravého skóre“ respondenta v dané položce (u binárních položek), analogie k E(𝜏 𝑝𝑖). Theta (𝜃 𝑝) je úroveň schopnosti respondenta 𝑝. ◦ Subskript p se zpravidla vynechává. 𝑏𝑖 je parametr obtížnosti položky 𝑖. ◦ Parametr obtížnosti 𝑏𝑖 položky 𝑖 je bod na škále schopnosti, v němž je pravděpodobnost správné odpovědi respondenta j se stejnou mírou schopnosti (𝜃 𝑝 = 𝑏𝑖) na danou položku 𝑃 𝑥𝑖 = 1 𝜃 = 0,5. snadnější položka / obtížnější položka / nižší úroveň rysu vyšší úroveň rysu Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = -2 má 50 % pravděpodobnost správné odpovědi. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = -2 má 50 % pravděpodobnost správné odpovědi. Analogicky respondent s θ=0 odpoví správně s 88% pravděpodobností: ◦ 𝑃𝑖 𝜃 = 𝑒 0+2 1+𝑒 0+2 = 0,88. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = -2 má 50 % pravděpodobnost správné odpovědi. Analogicky respondent s θ=0 odpoví správně s 88% pravděpodobností: ◦ 𝑃𝑖 𝜃 = 𝑒 0+2 1+𝑒 0+2 = 0,88. A respondent s θ=2 → 95 %. ◦ 𝑃𝑖 𝜃 = 𝑒 0+4 1+𝑒 0+4 = 0,98. Dvouparametrový model (2PL) Diskriminační parametr je rozlišovací schopnost položky: ukazuje, jak moc se liší „dobří“ a „špatní“ respondenti v očekávané pravděpodobnosti správné odpovědi. 𝑃𝑖 𝜃 = 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 ai je diskriminační parametr pol. i – naklonění ICC v bodě b. ◦ čím je křivka „plošší“, tím méně rozlišuje Analogií ve faktorové analýze je faktorový náboj a v CTT položkové analýze korigovaná korelace. Charakteristická křivka položky 2PL Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál. Charakteristická křivka položky 2PL -4 -2 0 2 4 0.00.20.40.60.81.0 IRT odhad pravděpodobnost/true-score Diskriminační parametry (theta=1): a=0,5; p=0,70 a=1; p=0.85 a=2; p=0.97 Tříparametrový model (3PL) Zavádí parametr pseudouhádnutelnosti 𝑐𝑖 pro položky vícenásobné volby (multiple-choice): 𝑃𝑖 𝜃 = 𝑐𝑖 + 1 − 𝑐𝑖 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 ◦ ci je parametr (pseudo)uhádnutelnosti pro položku i. V multiple-choice testech lze nahradit Bockovým NRM modelem. ◦ NRM je nejvíce obecný model, jehož specifikací lze nahradit (téměř) cokoliv. Při prostém tipování je pravděpodobnost „náhodně správné“ odpovědi teoreticky 1/n, kde n je počet možných odpovědí. ◦ Tedy n-1 distraktorů a právě 1 správné odpovědi. Tento předpoklad je příliš silný, proto je lepší pro každou položku tuto pravděpodobnost odhadnout zvlášť. ◦ Některé distraktory mohou být evidentně chybné a respondent je vyloučí. ◦ Ideálně by se takové distraktory samozřejmě neměly vyskytovat... chytáky nefungují. -4 -2 0 2 4 0.00.20.40.60.81.0 IRT odhad pravděpodobnost/true-score Parametry uhádnutelnosti: c = 0 c = 0,25 c = 0,5 Charakteristické křivky položek 3PL c P(θ=0) P(θ=1) 0 0,5 0,73 0,25 0,63 0,80 0,5 0,75 0,87 Pozor – přestává platit poučka ze 2PL modelu: 𝜃 𝑝 = 𝑏𝑖 ⇒ 𝑃𝑖𝑗 = 0,5 ! V bodě 𝑏𝑖 je ale ICC nejstrmější. 𝑏𝑖 = 0 pro všechny položky Čtyřparametrový model (4PL) Použití spíše výjimečně pro specifické účely. ◦ Např. „projektivní hypotéza“ u TAT (Ťápal, unpublished manuscript). Zpravidla malé výhody, zahrnutím dalších parametrů se naopak významně zhoršují vlastnosti modelu. ◦ Někdy je ale výhodné pracovat s horní namísto spodní asymptotou. 4PL: parametr „ledabylosti“ – ani nejlepší respondent nemá pravděpodobnost správné odpovědi rovnu 100 %. 𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 ◦ di je parametr ledabylosti; zpravidla bývá blízký 1. Charakteristická křivka 4PL modelu -4 -2 0 2 4 0.00.20.40.60.81.0 IRT odhad pravděpodobnost/true-score 0.10.30.50.70.9  Parametry:  a = 1  b = 0  c = 0,25  d = 0,95  Pravěpodobnost:  Pi(θ=0)=0,61  Pi(θ=1)=0,77 𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖 𝑒 𝐷𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝐷𝑎 𝑖 𝜃−𝑏 𝑖 Srovnání 1PL–3PL modelů jednoparametrový model ◦ pouze parametr obtížnosti položky bi dvouparametrový model ◦ přidává diskriminační parametr ai tříparametrový model ◦ přidává parametr pseudo-uhádnutelnosti ci Ostatní symboly: ◦ schopnost respondenta: θ ◦ pravděpodobnost správné odp.: Pi ◦ i – číslo položky ◦ 4PL: di=1 → 3PL ◦ 3PL: ci=0 → 2PL ◦ 2PL: ai=1 (nebo ai=a) → 1PL On-line ilustrace http://fssvm6.fss.muni.cz/ICC/ https://shiny.cs.cas.cz/ShinyItemAnalysis/ Srovnání Raschova a 1PL–3PL přístupu RASCHŮV MODEL (1PL) Spíše konfirmační princip (data musí odpovídat modelu). Pouze 1. parametr, a=1, zbytek je „šum“. ◦ Všechny pol. diskriminují (teoreticky) stejně. Cílem je fundamentalita škály, invariance odhadu. Menší závislost odhadů na položkách/respondentech. Nižší počet parametrů → nižší počet respondentů. Vhodnější pro konstrukci diagnostických testů (SB-V, Leiter-3, v ČR pak WJ-IV, KIT a další) Možnost žádných předpokladů o rozložení latentního rysu (JML estimátor). IRT (1PL, 2PL, 3PL...) Spíše explorační princip (přizpůsobuje model datům). Počet parametrů, který nejlépe popíše data. ◦ Diskriminace položek se může lišit. Důraz je kladen na výběr „nejlepšího“ modelu. Vyšší závislost odhadů na položkách/respondentech. Vyšší počet parametrů → vyšší počet respondentů. Vhodnější pro test-equating v high-stakes testech (SAT, GRE, SCIO, SK maturita) a adaptivní testování. Zpravidla předpoklad normálního rozdělení (MML, CML aj. estimátory). Různé formáty parametrizace a zápisu Rozdílné zápisy modelované pravděpodobnosti: 𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝 = 𝑃𝑖 𝜃 = 𝑃𝑖𝑝 = 𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝, 𝑏𝑖, 𝑎𝑖, 𝑐𝑖 Rozdílné možnosti zápisu (zde 1PL) modelu: 𝑃𝑖𝑝 = 𝑒 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝜃 𝑝−𝑏 𝑖 = 1 1 + 𝑒− 𝜃 𝑝−𝑏 𝑖 = exp 𝜃 𝑝 − 𝑏𝑖 1 − exp 𝜃 𝑝 − 𝑏𝑖 = 1 1 + exp 𝑏𝑖 − 𝜃 𝑝 Exponenciální vs. logistický zápis: 𝑃𝑖𝑝 = 𝑒 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝜃 𝑝−𝑏 𝑖 ~ ln 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 = 𝜃 𝑝 − 𝑏𝑖 Tradiční IRT parametrizace (2PL modelu): 𝑃𝑖𝑝 = 𝑒 𝑎 𝑖 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃 𝑝−𝑏 𝑖 Intercept-slope parametrizace: 𝑃𝑖𝑝 = 𝑒 𝑎 𝑖 𝜃 𝑝+𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃 𝑝+𝑏 𝑖 Výhody intercept-slope parametrizace Výhoda 1: multidimenzionální (Reckaseho, kompenzatorní) model 𝑃𝑖𝑝 = 𝑒 𝑎 𝑖1 𝜃 𝑝1+𝑎 𝑖2 𝜃 𝑝2+ … +𝑎 𝑖𝑛 𝜃 𝑝𝑛+𝑏 𝑖 1 + 𝑒 𝑎 𝑖1 𝜃 𝑝1+𝑎 𝑖2 𝜃 𝑝2+ … +𝑎 𝑖𝑛 𝜃 𝑝𝑛+𝑏 𝑖 Výhoda 2: srovnání s faktorovou analýzou Faktorová analýza: E 𝑥𝑖𝑝 = 𝑎𝑖1 𝜃 𝑝1 + 𝑎𝑖2 𝜃 𝑝2 + … + 𝑎𝑖𝑛 𝜃 𝑝𝑛 + 𝑏𝑖 ◦ S reziduálním rozptylem 𝜎𝑖 2 shodným pro všechny odpovědi na danou položku. ◦ faktorový náboj 𝑎𝑖 se zpravidla značí jako 𝜆𝑖 IRT: ln 𝑃 𝑖𝑝 1−𝑃 𝑖𝑝 = 𝑎𝑖1 𝜃 𝑝1 + 𝑎𝑖2 𝜃 𝑝2 + … + 𝑎𝑖𝑛 𝜃 𝑝𝑛 + 𝑏𝑖 E 𝑥𝑖𝑝 = 𝑃𝑖𝑝 ◦ S reziduálním rozptylem 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 (rozptyl binární proměnné) různým napříč respondenty. Kde je (sakra) to celkové skóre? Problém zpětné inference (epistemologie). ◦ Model: Latentní rys způsobuje odpovědi na položky. ◦ Praxe: Z odpovědí na položky usuzujeme na míru rysu. ◦ Známe-li parametry (obtížnost...) položek, můžeme odhadnout nejpravděpodobnější úroveň latentního rysu, pro kterou bychom právě takové odpovědi pozorovali. Při výzkumu (např. standardizace metody): ◦ Odhadujeme parametry položek i osob naráz. ◦ Parametry položek uschováme pro budoucí použití, parametry osob se použijí pro tvorbu norem (IQ, T-skóry, percentily...) Při praktickém použití již standardizované metody: ◦ Z dopředu „nakalibrovaných“ položek usuzujeme na míru rysu, kterou pak převedeme na standardní skóry. Přesnost měření v IRT IRT skóry Další druhy modelů 2. ČÁST PŘEDNÁŠKY Předpoklady IRT Latentní rys existuje a jde o spojitou intervalovou proměnnou. ◦ Často navíc normálně rozloženou (závisí na estimátoru). ◦ Ale existují i diskrétní IRT modely, empirical histogram IRT, analýza latentních tříd (LCA) atd. Lokální nezávislost položek. ◦ Veškeré souvislosti položek lze vysvětlit výhradně modelovanými latentními rysy. ◦ Tzn. parciání vztah položek po kontrole úrovně latentního rysu je nulový. ◦ V případě jediného rysu: jednodimenzionalita. ◦ Na rozdíl od CFA nelze modelovat reziduální kovariance, je nutné zavést specifické faktory. Odpovědi lidí na položku lze modelovat prostřednictvím ICF. ◦ Charakteristická funkce položky (ICF = Item Characteristic Function) ◦ Někdy též Item Response Function (IRF), Item Characteristic Curve (ICC) atd. Charakteristická funkce testu Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/ca talog/book/968 Charakteristická funkce testu (TCF) Test Characteristic Function/Curve (TCF/TCC). Jde o prostý součet jednotlivých ICC: 𝑇𝐶𝐶 𝜃 = ෍ 𝑖=1 𝑛 𝐼𝐶𝐶𝑖 𝜃 = ෍ 𝑖=1 𝑛 𝑃𝑖 𝜃 = E 𝑇 𝜃 ◦ kde n je počet položek. Hodnota očekávaného pravého (E 𝑇 𝜃 ), případně pozorovaného (E 𝑋 𝜃 )1 skóre u respondentů s určitou mírou latentního rysu 𝜃. 1 Záleží na nastavení modelu, estimátoru atd., není to podstatné. Charakteristická funkce testu (TCF) Charakteristická funkce testu (TCF) TCF lze využít při skórování testu. 1PL: TCC izomorfní, každému X odpovídá právě jedno θ. Toho se využívá v psychologických testech. 2PL: vztah není jednoznačný. Diskriminační parametr dává jinou váhu každé položce a proto záleží, které z nich byly zodpovězeny správně/špatně. ◦ Každému HS odpovídá konečný počet odhadů latentních rysů podle konkrétních odpovědí. ◦ Z hrubého skóre lze na úroveň latentního rysu usuzovat jen se ztrátou reliability. ◦ Zpravidla se používají přímo odpovědi na jednotlivé položky. Řada dalších využití, např.: ◦ Observed score IRT equating. ◦ Differentional test functioning (DTF). IRT škálování IRT skóry IRT škály Cígler, H. (2018). Měření matematických schopností. Brno: Masarykova univerzita. Logitový skór Výstupem IRT (Raschova modelu, 2PL+ to může být komplikovanější) je skór v logitech. ◦ Analogie hrubého skóre v CTT. Interpretace: 𝑙𝑜𝑔𝑖𝑡 = ln 𝑃 𝜃 1 − 𝑃 𝜃 Kde 𝑃 𝜃 je typicky buď podíl položek, které respondent zvládne splnit správně. Logity převádějí pravděpodobnost (resp. percentil) na intervalovou proměnnou. 𝜽 − 𝒃𝒊 P -5 0,7% -4,5 1,1% -4 1,8% -3,5 2,9% -3 4,7% -2,5 7,6% -2 11,9% -1,5 18,2% -1 26,9% -0,5 37,8% 0 50,0% 0,5 62,2% 1 73,1% 1,5 81,8% 2 88,1% 2,5 92,4% 3 95,3% 3,5 97,1% 4 98,2% 4,5 98,9% 5 99,3% IRT škálování Samotný skór v logitech se pro praktické použití dále standardizuje. ◦ Intervalová škála rysu napříč všemi skupinami respondentů. ◦ Z ní IQ, T-skóry apod. pro daný ročník/věk/pohlaví atd. Kromě toho specifické (typicky Raschovské) skóry: ◦ W-skóry: Vhodné pro sledování růstu či vývoje, nezávisí na vzorku. ◦ W 500 ve věku 10;0 (příp. na začátku 5. ročníku) ◦ Vzdálenost 𝑏 − 𝜃 = 10𝑊 odpovídá změně pravděpodobnosti správné odpovědi z 50 % na 75 % (resp. 25 %). ◦ Lze predikovat úspěch v položkách/subtestech. ◦ RPI (Relative Proficiency Index): X/90, závisí na vzorku. ◦ Index relativní výkonnosti. Jaká je pravděpodobnost X správné odpovědi na položky, které lidé ze stejné normalizační skupiny odpovídají s 90% pravděpodobností správně? (Pro jiné základy zlomku kalkulačka zde.) Jaffe, L. E. (2009). Development, interpretation, and application of the W score and the relative proficiency index (Woodcock-Johnson III Assessment Service Bulletin No. 11). Rolling Meadows, IL: Riverside Publishing. 𝑊 = 10 ln 3 𝜃 − ҧ𝜃10 + 500 𝑊 = 9,1 𝜃 − ҧ𝜃10 + 500 • kde ҧ𝜃10 = průměrný skór 10letých • W-skóre má 9,1krát užší měřítko než logit. IRT škálování Klíčová výhoda IRT škálování: Odhad latentního rysu není závislý na použitých položkách. ◦ V CTT je naopak pravý skór „operacionalizován“ položkami. ◦ Chybějící data nejsou problém Toho využívají IRT metody, např.: ◦ Subtesty dělené podle věku, ale stále srovnatelné pomocí W-skóru. ◦ Různé „startovací položky“. ◦ Pravidla ukončení. Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Standardizace BACH: Testy školních dovedností: Obecné pokyny. Verze dokumentu 1.02. Masarykova univerzita a Propsyco. Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Testy školních dovedností (BACH): Matematika. Masarykova univerzita a Propsyco. IRT škálování Příklad z měření fluidní inteligence: ◦ Dítěti v 5 letech jsme naměřili IQ 100. ◦ Při retestu v 8 letech má IQ 85. Inteligence dítěte se: ... ? ◦ a) zvýšila ◦ b) nezměnila ◦ c) snížila ◦ d) nelze říci ◦ e) nechci odpovídat http://mindsbasis.blogspot.cz/2016/03/rasch-measure-of-intelligence-age-2-25.html Vývoj indexů ve WJ-IV v závislosti na věku. Raschův model umožňuje srovnávání vývoje průměrné úrovně rysů v čase. Ve vícePL IRT modelech problematické (nestejná „škála“). McGrew, K. S., LaForte, E. M., & Schrank, F. A. (2014). Technical Manual. Woodcock Johnson IV. Rolling Meadows, IL: Riverside. Krátký inteligenční test (KIT) Srovnání vývojových křivek použito jako důkaz konstruktové validity. Cígler, H. (2018). Měření matematických schopností. Brno: Masarykova univerzita. Druhy skóry Odvozené skóry (percentily, IQ a další standardní skóry) poskytují normativní srovnání s referenční skupinou. Jsou závislé na vlastnostech škály a vzorku (M, SD). Ipsativní skóry poskytují intraindividuální srovnání (diagnostika profilu atp.). ◦ Statisticky, klinicky významný rozdíl... W-skóry zasazují výkon člověk na absolutní škálu společnou pro typ testů. ◦ Do jisté míry nezávislou na počtu a konkrétním znění položek. RPI index poskytuje měřítko pro srovnání rozdílu výkonu probanda a referenční skupiny na snadno představitelné škále. Není ale závislý na variabilitě. ◦ Rozdíl 30 IQ v pěti a dvaceti letech znamená velmi odlišný rozdíl v reálném výkonu. ◦ Rozdíl 30 IQ v CHC faktoru psychomotorické tempo (Gs) znamená daleko vyšší rozdíl než rozdíl 30 např. u krátkodobé paměti (Gsm), protože SDGs > SDGsm. Chyba měření v IRT Informační funkce položky Informační funkce testu Chyba měření Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074 Pojetí reliability a přesnosti měření v IRT IRT odděluje úvahu o: ◦ Chybě měření (a intervalech spolehlivosti odhadu). ◦ Tzv. informační funkce položky/testu. ◦ Teoreticky nezávislá na výzkumném souboru. ◦ Reliabilitě, celkové spolehlivosti testu. ◦ Odhadnuté na základě parametrů vzorku a chyb měření. V IRT je tedy odhad SE používán pro odhad reliability. ◦ V CTT spíše naopak (ale srov. GT). Odbočka: Informační teorie Množství informace nesené (nejen) diskrétní proměnnou souvisí s obtížností předpovědět daný jev. ◦ Jinými slovy: Čím nižší souvislost má apriorní očekávání s pozorováním, tím více informace. ◦ Př.: Pokud jev může nabývat hodnot 0/1, ale reálně nabývá vždy 1, pozorovaná odpověď nenese žádnou informaci, protože tu 1 očekáváme. Př.: Lidé odpovídají ano/ne na různé otázky. ◦ Ignác vždy odpoví „ano“ nehledě na otázku. ◦ Ignácie se zamyslí a odpoví podle otázky. ◦ Odpovědi Ignácie nesou více informace, než odpovědi Ignáce. Informace Bernoulliho pokusu podle pravděpodobnosti úspěchu. Informační funkce položky (IIF) Item Information Function/Curve (IIF/IIC) Informační funkce položky 𝐼𝑖 𝜃 je funkcí jednotlivých parametrů modelu. ◦ Pro každou úroveň schopnosti 𝜃 jiná. Binární položky: 𝐼𝑖 𝜃 = 𝑃𝑖 ′ 𝜃 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ 𝑃𝑖 𝜃 = Charakteristická funkce položky ◦ 𝑃𝑖 ′ 𝜃 = první derivace této funkce. ◦ 1 − 𝑃𝑖 𝜃 = pravděpodobnost jiné než správné odpovědi. Informační funkce položky (IIF) 1PL MODEL (RASCHŮV) Pro 1PL model platí 𝑃𝑖 ′ 𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ a lze tedy zjednodušit: 𝐼𝑖 𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ V Raschově binárním modelu mají všechny položky stejný průběh funkce (diskriminační parametr), liší se jen umístěním maxima. ◦ Maximum je v bodě obtížnosti pol. (𝑏𝑖). ◦ Maximum funkce je vždy 0,5 ∙ 0,5 = 0,25. 2PL, 3PL MODELY Pro 2PL model platí 𝑃𝑖 ′ 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ a lze tedy zjednodušit: 𝐼𝑖 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 Informační funkce 3PL modelu je: 𝐼𝑖 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 − 𝑐𝑖 2 1 − 𝑐𝑖 2 1 − 𝑃𝑖 𝜃 𝑃𝑖 𝜃 ◦ fixováním 𝑐𝑖 = 0, resp. 𝑎𝑖 = 1 lze dosáhnout 2PL, resp. 1PL IIF. ◦ U 3PL není maximum v bodě obtížnosti. Informační funkce položky Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=2,5; b=-2; c=0; d=1 https://itemanalysis.com/irt-illustrator/ Informační funkce položky Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=1; b=0; c=0,5; d=1 https://itemanalysis.com/irt-illustrator/ (Pozor, osa y má odlišné měřítko od předchozího snímku.) Informační funkce položky Celková informační funkce položky (plocha pod křivkou) závisí na: ◦ Diskriminačním parametru (+). ◦ Parametru pseudouhádnutelnosti (-). Velikost informace položky se liší pro jednotlivé respondenty podle jejich schopnosti θ a závisí dále na: ◦ Blízkosti parametru obtížnosti a latentního rysu respondenta. ◦ Položka přináší nejvíce informace, když je ICC nejstrmější, a tedy pravděpodobnost správné odpovědi 𝜃 = 𝑏𝑖 (1PL, 2PL). ◦ Toho se využívá při počítačově adaptivním testování (CAT). Informační funkce testu (TIF) a chyba měření Informační funkce testu 𝐼 𝜃 je součtem informačních funkcí jednotlivých položek: 𝐼 𝜃 = ෍ 𝑖=1 𝑛 𝐼𝑖 𝜃 ◦ (Analogie k CTF.) Lze ji chápat jako relativní nepřítomnost chybového rozptylu, a proto se chyba měření 𝑆𝐸 liší podle odhadu úrovně lat. rysu ෠𝜃: 𝑆𝐸 ෠𝜃 = 1 𝐼 𝜃 ◦ (tedy čím vyšší informační funkce, tím přesnější měření/menší chyba měření) Interval spolehlivosti potom získáme obdobně jako v CTT: 𝐶𝐼95% ෠𝜃 = 𝜃 ± 𝑧97,5% ∙ 𝑆𝐸෡𝜃 ◦ (Reálně se ale používají různé přesnější bootstrapové techniky). Charakteristická funkce testuCharakteristická funkce položek Charakteristická funkce testuCharakteristická funkce položek Informační funkce testuInformační funkce položek Informační funkce testu a chyba měření Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968 Reliabilita v IRT Stejná definice reliability jako v CTT: 𝑟𝑥𝑥´ = 𝜎 𝑇 2 𝜎 𝑋 2 = 𝜎 𝑇 2 𝜎 𝑇 2+𝜎 𝑒 2 = 𝜎 𝑋 2 −𝜎 𝑒 2 𝜎 𝑋 2 = 1 − 𝜎 𝑒 2 𝜎 𝑋 2 ◦ Interpretace je stejná, jako v CTT. Odhad reliability: ◦ Do vzorce výše dosadíme za 𝜎 𝑋 pozorovanou SD odhadů latentních rysů. ◦ A 𝜎𝑒 = 𝑅𝑀𝑆𝐸 = σ 𝑝=1 𝑁 𝑆𝐸 𝑝 2 𝑁 , kde SEp je standardní chyba každého z N respondentů, a RMSE je tzv. root mean-square error (odmocnina průměrného chybového rozptylu). Takže: 𝑟𝑥𝑥´ = 1 − 𝑅𝑀𝑆𝐸2 𝜎 𝑋 2 = 1 − σ 𝑝=1 𝑁 𝑆𝐸 𝑝 2 𝑁𝜎 𝑋 2 Komplikace: Záleží na estimátoru. ◦ CML, MML a resp. EAP, MAP odhady pracují s odhadem latentního rysu (regrese k průměru) a tedy je odhadován nikoliv 𝜎 𝑋 2 , ale přímo 𝜎 𝑇 2 . A tedy: 𝑟𝑥𝑥´ = 𝜎 𝑇 2 𝜎 𝑇 2+𝑅𝑀𝑆𝐸2 Reliabilita v IRT Interpretace: poněkud komplikovanější než v CTT. V zásadě: reliabilita jako vysvětlený rozptyl. ◦ Podíl rozptylu odhadů faktorových skórů, který lze vysvětlit latentním rysem. Interpretace jako korelace problematická. ◦ Jen přibližně. ◦ Heteroskedascidita chyb odhadu. Lokální reliabilita Pro reliabilitu měření konkrétního respondenta nebo konkrétní skupiny dosadíme za 𝜎𝑒 přímo SE daného odhadu či RMSE spočítaného pro konkrétní skupinu (Daniel, 1999): tzv. „lokální reliabilita“. ◦ Reliabilita testu, „pokud by fungoval všude stejně, jako pro dané respondenty“. ◦ Umožňuje zacílit výběr položek pro určitý testový záměr. ◦ Není reliabilitou v pravém slova smyslu (tj. „statisticky“), ale pro praktické použití je velmi užitečná. Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968 Odhad reliability Lze spočítat pro osoby i pro položky. Reliabilita osob záleží na: ◦ Rozptylu probandů. ◦ Délce testu. ◦ Počtu kategorií každé položky. ◦ „Sample-item targeting“ – jsou položky vhodně těžké pro daný vzorek? ◦ Je naopak nezávislá na počtu osob. ◦ Kritéria stejná jako v CTT. Reliabilita položek závisí na: ◦ Rozptylu obtížnosti položek. ◦ Počtu probandů. ◦ „Item-sample targeting“. ◦ Je nezávislá na délce testu. ◦ Odpověď na otázku „jak přesně jsme odhadli obtížnosti položek“? ◦ Kritéria výrazně přísnější... u běžných testů chceme alespoň 0,99. Shoda modelu s daty Na úrovni položky. Na úrovni respondenta. Pravděpodobnost konkrétní odpovědi. Lokální závislost položek. Na úrovni modelu. Shoda modelu s daty NA ÚROVNI CELÉHO MODELU Odpovídají pozorovaná data IRT modelu? Obdobný přístup jako v konfirmační faktorové analýze ◦ χ2, TLI, CFI, RMSEA... ◦ Na hrubých datech zkreslené velkým počtem d.f., proto reprodukované kovarianční matice (Maydeu-Olivares a Joe, 2006; Cai a Hansen, 2013) Umožňuje srovnání modelů navzájem ◦ 1PL vs. 2PL vs. 3PL... (nejen pomocí LRT). IRT lze v tomto ohledu použít namísto běžné EFA/CFA NA ÚROVNI POLOŽKY/RESPONDENTA Na kolik dobře odpovídají pozorované odpovědi 1 respondenta nebo odpovědi na 1 položku zvolenému IRT modelu? Celá řada indexů. ◦ Person fit: identifikace aberantních odpovědí. ◦ Např. pro účely purifikace dat při standardizaci. ◦ Item fit: doplňková informace o kvalitě položky (vedle parametrů modelu) ◦ Testy lokální nezávislosti (analogie reziduálních korelací a modifikačních indexů v FA). Shoda na úrovni respondenta/položky Na rozdíl od CFA lze uvažovat o shodě modelu s daty na úrovni položky/respondenta. ◦ „Odpovídá univariační frekvenční tabulka pozorovaných odpovědí predikovaným odpovědím?“ Využití shody položky s daty: ◦ Vyřazování nefungujících položek, kontrola položek při equatingu, MG IRT a podobně. ◦ Úprava IRT modelu (ICC) pro konkrétní položku. Využití shody respondenta s daty ◦ Identifikace aberantního odpovídání. ◦ Vyřazení respondentů odpovídajících nahodile při standardizačních studiích. Občas se využívá i identifikace konkrétní nepravděpodobné odpovědi. ◦ WJ-IV COG: jsou vyřazeny odpovědi podle tzv. pravidla 5σ (p = 0,00000057). ◦ Například respondent odpoví chybně z důvodů nesouvisejících s měřeným rysem. Shoda položky s daty (item fit) Shodu lze testovat pomocí signifikance odlišnosti od modelu, příp. velikosti efektu. Raschův model: infit vs. outfit, z-standardizovaný vs. mean-square ( ൗ𝜒2 𝑑𝑓). IRT obecně: Signed χ2 (Sχ2), případně jen χ2; G2; Q1; plausible value Q1 (PVQ1) ◦ A jejich bootstrapové varianty s vyšší robustností. Velikost efektu: velmi často Cramerovo V. ◦ Jak moc se liší pozorované frekvence odpověďových kategorií od kategorií predikovaných modelem? Shoda položky s daty (item fit) https://philchalmers.github.io/mirt/html/itemfit.html Shoda respondentů s daty Tradičně tzv. Zh statistika. V Raschových modelech se používá infit a outfit stejně, jako u položek. Celkově to není příliš spolehlivé pro individuální diagnostiku. ◦ Výhodnější je vyhledávání konkrétních aberantních odpovědí s malou pravděpodobností. Hlavní využití při standardizaci a čištění dat. Raschův model - infit (Příklad využití fitu a obtížnosti položek) nejlehčí položka velká chyba odhadu stochastická odpověď nejlepší respondent velká chyba odhadu stochastická odpověď mírně podprůměrný resp. malá chyba odhadu náhodná odpověď těžší položka malá chyba odhadu vysoká diskriminace Lokální závislost položek Explorace, zda dvě položky nesouvisí silněji či slaběji, než by odpovídalo modelu. ◦ „Odpovídá bivariační frekvenční tabulka dvou položek tomu, co predikuje model?“ Lze identifikovat prostřednictvím chí-kvadrát testu a odvozených metod. Analogie k reziduální kovarianční matici, případně modifikačním indexům (M.I.) v CFA, nicméně výrazně výpočetně náročnější. ◦ Reziduální kovariance jsou přímo spočítané v rámci modelu. ◦ M.I. lze získat jednoduchými maticovými operacemi, zde je potřeba počítat pro každý pár zvlášť. Velikost efektu (např. Cramerovo V) vs. signifikance.. Shoda celého modelu s daty Založen na chí-kvadrát testu stejně jako v CFA. ◦ CFI, TLI, RMSEA, SRMSR, AIC, BIC, saBIC a další. Full-information statistiky: χ2, G2. ◦ Založené na diskrepanční likelihood funkci (G2), resp. diskrepanci pozorované a modelem predikované matici odpovědí (χ2). ◦ Jinými slovy: diskrepance multivariační frekvenční tabulky všech položek. ◦ Jaké jsou předpoklady χ2? Jsou dodrženy? Proto limited-information statistiky: M2, M2 *, C2. ◦ M2, M2 * – univariační a bivariačí frekvence, binární (M2) a polytomické (M2 *) položky. ◦ C2 – varianta pro kratší testy s delší odpověďovou škálou, pouze bivariační frekvenční tabulky. Interpretace indexů CFI, RMSEA a dalších založených na M2, M2 *, C2 analogická indexům v CFA. Polytomní IRT modely Graded Response Model Generalized Partial Credit Models Tutzův sekvenční model Bockův Nominal Response Model Ordinální faktorová analýza Polytomní IRT modely Určeny pro práci s položkami s více odpověďmi. ◦ Např. Likertova škála 1-7, parciálně správné odpovědi ve výkonovém testu nebo multiplechoice položky. ◦ Na rozdíl od CTT mohou vést k doporučení zvýšit či snížit počet kategorií položek. ◦ Zpravidla 1PL či 2PL. Modely pro ordinální, nominální, nebo ordinální i nominální kategorie. 3 hlavní kategorie polytomních modelů1: ◦ difference models (GRM, MGRM) – výhradně ordinální kategorie ◦ divide-by-totals (PCM, GPCM, NRM) ◦ sekvenční modely (Tutzův sekvenční model) 1 Sijtsma, K., & Hemker, B. (2000). A Taxonomy of IRT Models for Ordering Persons and Items Using Simple Sum Scores. Journal of Educational and Behavioral Statistics, 25(4), 391-415. http://www.doi.org/10.2307/1165222 IIF, ICF: Obecné vlastnosti Očekávaný skór na položce 𝑋𝑖 (očekávaný hrubý skór položky) je vážený součet charakteristických funkcí 𝐾 odpověďových kategorií: E 𝑋𝑖 𝜃 = ෍ 𝑗=1 𝐾 𝑘𝑗 𝑃𝑖𝑗 ∗ 𝑥𝑖 = 𝑗 𝜃 ◦ 𝑘𝑗 – skórovací funkce (jakou bodovou hodnotu má odpověďová kategorie 𝑗? ◦ 𝑃𝑖𝑗 ∗ 𝑥 = 𝑗 𝜃 – charakteristická funkce kategorie 𝑗 (s jakou pravděpodobností bude pozorovaná odpověď 𝑥𝑖 na položce 𝑖 rovna kategorii 𝑗? Podoba této funkce záleží na zvoleném modelu. Analogicky informační funkce 𝐼𝑖 𝜃 je součtem informačních funkcí kategorií: 𝐼𝑖 𝜃 = ෍ 𝑗=1 𝐾 𝐼𝑖𝑗 ∗ 𝜃 Graded Response Model (GRM) Zobecnění 2PL modelu (Samejima, 1969): série 2PL modelů: 𝑃𝑖𝑥 ∗ 𝜃 = 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 𝑃𝑖𝑥 𝜃 = 𝑃𝑖𝑥 ∗ 𝜃 − 𝑃𝑖 𝑥+1 ∗ 𝜃 Dvoukrokový odhad pravděpodobnosti: ◦ Pro každou odpověď 𝑥 je odhadnuta pravděpodobnost 𝑃𝑖𝑥 ∗ 𝜃 , že respondent odpoví touto nebo vyšší odpovědí (vs. nižší). 𝑏𝑖𝑥 - obtížnost kategorie 𝑥 na položce 𝑖. Pro účely výpočtu je nejnižší kategorie 𝑃𝑖 𝑥=0 ∗ 𝜃 = 1 ◦ Výsledná pravděpodobnost konkrétní odpovědi 𝑃𝑖𝑥 𝜃 je rozdílem odhadnuté pravděpodobnosti a pravděpodobnosti o jedna „vyšší/těžší“ odpovědi. Modified Graded Response Model (MGRM, Muraki, 1990); někdy též GRSM. ◦ 𝑃𝑖𝑥 ∗ 𝜃 = 𝑒 𝑎 𝑖 𝜃− 𝑏 𝑖−𝑐 𝑗 1+𝑒 𝑎 𝑖 𝜃− 𝑏 𝑖−𝑐 𝑗 , kde 𝑐𝑗 jsou parametry jednotlivých prahů 𝑗 a 𝑏𝑖 obtížnost položky 𝑖. Graded Response Model (GRM) 𝑃𝑖𝑥 ∗ 𝜃 = 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 𝑃𝑖𝑥 𝜃 = 𝑃𝑖𝑥 ∗ 𝜃 − 𝑃𝑖 𝑥+1 ∗ 𝜃 E 𝑋𝑖 = ෍ 𝑗=1 𝐾 𝑗𝑃𝑖𝑗 ∗ 𝜃 Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074 Partial Credit Model (PCM) a RSM Partial Credit Model (PCM; Masters, 1982): vyvinut v rámci Raschova modelu pro účely položek, kde je nutné provést sérii kroků vedoucích ke správnému řešení 𝑃 𝑋 𝑛𝑖 = 𝑥 = 𝑒σ 𝑘=0 𝑥 𝜃 𝑛− 𝑏 𝑖−𝜏 𝑘𝑖 σ 𝑥=0 𝑚 𝑒σ 𝑘=0 𝑥 𝜃 𝑛− 𝑏 𝑖−𝜏 𝑘𝑖 ◦ 𝑥 ∈ 0, 1, 2, … , 𝑚𝑖 ◦ plus dílčí specifikace kvůli identifikaci modelu. ◦ Použitelný pro jakékoliv položky s více odpověďmi. ◦ 𝜏 𝑘 „obtížnosti“ jednotlivých „prahů“ (zbytek viz dříve) Rating Scale Model (RSM; Andrich, 1978): prahy 𝜏 𝑘 napříč položkami jsou stejné ◦ méně parametrů, menší počet respondentů ◦ vhodné pro Likertovské škály s podobnými položkami Generalized Partial Credit Model (2PL PCM) (GPCM; Muraki, 1992) 𝑃 𝑋 𝑛𝑖 = 𝑥 = 𝑒σ 𝑘=0 𝑥 𝑎 𝑖 𝜃 𝑛− 𝑏 𝑖−𝜏 𝑘 σ 𝑥=0 𝑚 𝑒σ 𝑘=0 𝑥 𝑎 𝑖 𝜃 𝑛− 𝑏 𝑖−𝜏 𝑘 ◦ 𝑥 ∈ 0, 1, 2, … , 𝑚𝑖 ◦ plus dílčí specifikace kvůli identifikaci modelu. ◦ Položky se liší z hlediska své diskriminace (ai) Příklad: PCM (5steps Likert) Příklad RSM vs. PCM RATING SCALE MODEL PARTIAL CREDIT MODEL GRM vs. PCM Výsledky obou modelů jsou velmi podobné. Přestože predikované pravděpodobnosti a výsledky jsou velmi podobné, logika je diametrálně odlišná. ◦ PCM: Série navazujících kroků/znalostí nutných pro získání vyššího „skóre“. ◦ Musím získat 1 bod, abych mohl získat 2 body; musím získat 2 body, abych mohl získat 3 body... ◦ Pokud bych odpověděl správně možnost K, jaká je pravděpodobnost, že zodpovím správně i K+1? ◦ Typicky výkonové testy (parciální kredit, dílčí míra znalosti). ◦ GRM: latentní kontinuum je rozčleněné na dílčí binární 2PL modely. ◦ Určí se pravděpodobnost překročení každého ze „stupňů“ separátně a ty se pak „složí“ dohromady ◦ Jaká je pravděpodobnost, že odpovím K vs. K+1? Jaká, že odpovím K+1 vs. K+2? K+2 vs. K+3? ... ? ◦ Typicky osobnostní dotazníky (překročila míra souhlasu míru nutnou pro skórování určitým způsobem)? Nominal Response Model (NRM) Bock (1972): Obecný model pro položky s více odpověďmi, které nejsou (nemusí být) ordinálně seřazené. 𝑃𝑖𝑥 𝜃 = 𝑒 𝑎 𝑖𝑥 𝜃+𝑐 𝑖𝑥 σ 𝑥=0 𝑚 𝑒 𝑎 𝑖𝑥 𝜃+𝑐 𝑖𝑥 ◦ kde pro každou položku σ 𝑎𝑖𝑥 = σ 𝑐𝑖𝑥 = 0. ◦ Každý práh x položky i má tedy vlastní diskriminační koeficient aix a vlastní obtížnost cix. ◦ Vhodný pro multiple-choice testy (s jednou správnou) či výběr z odpovědí, kdy každá má jiný vztah s latentním rysem (rysy), ale i Likertovy škály (při velkém N). ◦ Výhodou je, že jsou pro odhad latentního rysu využity i chybné odpovědi (ale zase více parametrů...). Lze ale použít i pro dotazníková data. ◦ Obecný model, většina ostatních je specifikací NRM; zvláště silné multidimenzionální verze. Nominal Response Model (NRM) Nominal Response Model (NRM) Multiple-choice models NRM má tu nevýhodu, že pro nízké hodnoty θ preferuje jednu z možností. ◦ Pro 𝜃 → ∞ by měly být průběhy všech CCF monotónní. Proto vzniklo několik multiple-choice modelů. Thissen-Steinberg (1984) MC model: 𝑃𝑖 𝑥 = 𝑘 𝜃 = exp 𝑎𝑖𝑘 𝜃 + 𝑏𝑖𝑘 +𝑝𝑖𝑘 exp 𝑎𝑖0 𝜃 + 𝑏𝑖0 σ 𝑗=0 𝐾 exp 𝑎𝑖𝑗 𝜃 + 𝑏𝑖𝑗 ◦ Pro účely identifikace: σ 𝑗=0 𝐾 𝑎𝑖𝑗 = 0 , σ 𝑗=0 𝐾 𝑏𝑖𝑗 = 0 , σ 𝑗=0 𝐾 𝑝𝑖𝑗 = 0. Počet kategorií 𝑘 je 𝐾. ◦ Pravděpodobnost 𝑃𝑖, že pozorovaná odpověď 𝑥 na položku 𝑖 odpovídá kategorii 𝑘. ◦ Volba kategorie je směsí těch, co si myslí, že jde o správnou možnost (exp 𝑎𝑖𝑘 𝜃 + 𝑏𝑖𝑘 ) a těch, kteří tipují (𝑝𝑖𝑘 exp 𝑎𝑖0 𝜃 + 𝑏𝑖0 ). ◦ 𝑎𝑖𝑘, 𝑏𝑖𝑘 - diskriminace a obtížnost kategorie 𝑘 ◦ 𝑝𝑗𝑘 - pravděpodobnost náhodné volby při tipování, propojená s pravděpodobností tipování ◦ 𝑎𝑖0 a 𝑏𝑖0 - diskriminace a obtížnost latentní odpovědi „vůbec nevím a tipuji náhodně s pravděpodovností 𝑝𝑖𝑘. Divided-by-total modely obecně PCM, RSM, GPCM, NRM: všechny modelují „díl pozorování dané kategorie“ ze „všech dílů“ (proto to divided-by-total). Možná přehlednější je intercept-slope zápis (Chalmers, 2012), v tomto případě GPCM: 𝑃 𝑥 = 𝑘 𝜃 = exp 𝑠𝑖,𝑘−1 𝑎𝑖 𝜃 + 𝑑𝑖,𝑘−1 σ 𝑘=0 𝐾−1 exp 𝑠𝑖,𝑘 𝑎𝑖 𝜃 + 𝑑𝑖,𝑘 ◦ 𝐾 = počet možných kategorií skórovaných 𝑘 ∈ 0, 𝐾 − 1 ◦ 𝑎𝑖 = diskriminační parametr položky 𝑖 ◦ 𝑑 𝑘−1 = tzv. práh položky ◦ 𝑠𝑖,𝑘 = skórovací funkce („bodová hodnota“ dané odpovědi 𝑘 na položce 𝑖). ◦ Např. u čtyřbodové Likertovy škály 𝑠𝑖,𝑘 ∈ 0,1,2,3 . V NRM odhadováno. Tuto parametrizaci lze využít pro všechny divided-by-total modely (kromě MC). Hierarchie modelů Srovnání modelů 1 Běžné modely: divided-by-total a graded modely. Embretson a Reise (2009) García-Peréz, M.A. (2017); doporučuji pro mnoho dalších srovnání v různých situacích Srovnání modelů 2 Sekvenční modely Jde o rodinu modelů, která „rozloží“ položku do série postupných „uzlů“. Zejm. Tutzův (1990) sekvenční model (SM): série binárních položek. 𝑃 𝑥 = 𝑘 𝜃 = 1 − 𝑃𝑖𝑘 ෑ 𝑗=1 𝑘−1 𝑃𝑖𝑗 ◦ 𝑃𝑖𝑗 - pravděpodobnost správné odpovědi v uzlu/kategorii 𝑗 na položce 𝑖. ◦ 𝑃𝑖𝑗 se zpravidla modeluje 2PL, případně 1PL modelem (tradičně, nikoliv nutně je diskriminační parametr shodný pro všechny uzly). ◦ Pravděpodobnost, že respondent zvolí kategorii 𝑘, je tedy daná součinem předchozích kategorií (1 až k-1) a toho, že v posledním uzlu selhal. Respondent „prochází“ jednotlivými uzly. ◦ Pokud uzlem neprojde úspěšně, další uzly již nejsou pozorovány. Výhoda: lze použít běžný IRT program pro binární položky. originální položka rekódovaná P1 rekódovaná P2 0 0 NA 1 1 0 2 1 1 Ordinální faktorová analýza Ordinální faktorová analýza je založená na tetrachorických (binární položky), respektive polychorických korelacích (ordinální položky). Tetrachorická/polychorická korelace: ◦ Existuje spojitá, intervalová, normálně rozložená latentní odpověď (LR, Latent Response). ◦ Ta není přímo pozorovaná (je latentní). ◦ Manifestuje se pouze jako ordinální kategorie. ◦ Pokud LR překročí příslušný práh položky, pozorujeme vyšší kategorii. Tetra/poly korelace jsou odhadovány na základě bivariačních frekvenčních tabulek. Tetrachorické korelace nejsou robustní vůči zešikmení. ◦ V případě chybějících bivariačních četností není korelace identifikovaná ◦ Imputuje se arbitrární konstanta, tzv. korekce na kontinuitu. ◦ Rozdílné zešikmení položek, zejm. u tetrachorických korelací (vede k výraznému nadhodnocení síly vztahu). Tetrachorická korelace (ρ = 0,6) Tetrachorická korelace (ρ = 0,6) Ordinální faktorová analýza Klasická CFA: latentní faktor způsobuje manifestní odpověď. 𝑋𝑖 = 𝜆𝑖 𝑓 + 𝜈𝑖 + 𝜀, var 𝜀 = 𝜃𝑖 ◦ 𝑓 – faktor, 𝜆𝑖 - faktorový náboj,𝜃𝑖 - reziduální rozptyl Ordinální CFA: latentní faktor způsobuje latentní odpověď (LR). 𝐿𝑅𝑖 = 𝜆𝑖 𝑓 + 𝑣𝑖 + 𝜀, var 𝜀 = 𝜃𝑖 𝐿𝑅𝑖 ≥ 𝜏𝑖 𝑘−1 ∧ 𝐿𝑅𝑖 < 𝜏𝑖𝑘 ⟹ 𝑋𝑖 = 𝑘, 𝜏𝑖0 = −∞ ◦ 𝜏𝑖𝑘 - k-tý práh položky i. Ordinální CFA je probitový Graded Response Model. ◦ S nepatrně odlišnou parametrizací. Parametry ordinální faktorové analýzy 𝜎𝑖, 𝜎𝑖𝑘 – rozptyl, resp. kovariance položek i, k. ◦ Pozorovaná Σ a odhadovaná ෠Σ mat. ◦ V ordinální CFA je i Σ odhadovaná (mat. LR). 𝜆𝑖 – faktorový náboj LR i (mat. Λ) 𝜏𝑖𝑘 – k-tý práh pol. i (mat. Τ) 𝜃𝑖, 𝜃𝑖𝑘 – reziduální rozptyl, resp. reziduální kovariance LR i, k (mat. Θ) 𝜈𝑖 – intercept LR (mat. Ν) 𝛼, 𝜓 – průměr a rozptyl faktoru (mat. Α a Ψ). 𝛿𝑖 – celkový rozptyl LR je 𝛿𝑖 −2 (mat. Δ) ◦ tzv. „scaling parameter“. ◦ jde o relativní nepřítomnost chybové SD. Pro účely identifikace zpravidla intercept LR fixován jako 𝜈𝑖 = 0. Theta parametrizace: ◦ Parametrem v modelu je reziduální rozptyl LR Θ. ◦ Pro účely identifikace zpravidla 𝜃𝑖 = 1. ◦ 𝛿𝑖 lze dopočítat jako 𝛿𝑖 = 𝜃𝑖 + 𝜆𝑖 2 𝜓 − 1 2 Delta parametrizace: ◦ Parametrem v modelu je celkový rozptyl LR Δ. ◦ Pro účely identifikace zpravidla 𝛿𝑖 = 1. ◦ 𝜃𝑖 lze dopočítat jako 𝜃𝑖 = 𝛿𝑖 −2 − 𝜆𝑖 2 𝜓 Výjimkou z uvedených omezení jsou MG, longitudinální a růstové modely. Parametry ordinální faktorové analýzy 𝜎𝑖, 𝜎𝑖𝑘 – rozptyl, resp. kovariance položek i, k. ◦ Pozorovaná Σ a odhadovaná ෠Σ mat. ◦ V ordinální CFA je i Σ odhadovaná (mat. LR). 𝜆𝑖 – faktorový náboj LR i (mat. Λ) 𝜏𝑖𝑘 – k-tý práh pol. i (mat. Τ) 𝜃𝑖, 𝜃𝑖𝑘 – reziduální rozptyl, resp. reziduální kovariance LR i, k (mat. Θ) 𝜈𝑖 – intercept LR (mat. Ν) 𝛼, 𝜓 – průměr a rozptyl faktoru (mat. Α a Ψ). 𝛿𝑖 – celkový rozptyl LR je 𝛿𝑖 −2 (mat. Δ) ◦ tzv. „scaling parameter“. ◦ jde o relativní nepřítomnost chybové SD. Další IRT modely Neparametrické IRT modely Diskrétní IRT modely, LCA. Unfolding/ideal point modely Kompenzatorní a nonkompenzatorní multidimenzionální modely. Explanační modely, LLTM modely. IRTree modely IRT modelování odpovědního času Neparametrické IRT modely Dosud jsme mluvili o parametrických modelech. ◦ ICC je definována několika málo parametry, předpokládá se její určitý tvar. Existují ale i neparametrické modely. ◦ Nepředpokládají konkrétní průběh ICC. Mokkenova škála. ◦ Esenciálně jednodimenzionální položky, monotónní průběh ICC. ◦ Značně oblíbená. Nikdy jsem nepochopil  Další neparametrické IRT modely. ◦ Mohou být monotónní i nemonotónní, binární i ordinální. ◦ Zpravidla nějaká polynomická funkce. Nespojitý latentní rys Všechny modely předpokládaly, že latentní proměnná je spojitá intervalová (a zpravidla normálně rozložená). To není nezbytně nutné. Diskrétní IRT: Latentní rys je intervalový, ale nabývá jen určitého počtu možných hodnot. ◦ Např. „v pořádku“, „suspektně problematický“, „problematický“. ◦ Modely jsou ale parametrizovány zcela shodně s tradičním IRT. Analýza latentních tříd (Latent Class Analysis, LCA). ◦ Latentní rys je nominální. ◦ Pro různé třídy platí různé parametry položek (a, b...). ◦ Model může odhadnout pravděpodobnost, s jakou proband patří do té které třídy. ◦ Příbuzné tzv. mixture modelům (modelům směsi). Kombinace LCA a tradičního přístupu je velmi silný nástroj. Ideal-point modely Všechny dosud prezentované modely předpokládaly, že čím vyšší míra rysu, tím vyšší (nebo naopak nižší) pravděpodobnost určité odpovědi. ◦ Výjimkou byly non-monotónní neparametrické modely. To není vždy realistický předpoklad. Např. položka: „Nemám rád poklidné párty.“ ◦ Co když nemám rád párty vůbec, protože jsem příliš introvertní? ◦ Co když mám rád jenom party-hard, protože jsem party-(wo)man? To řeší právě ideal-point/unfolding modely. ◦ Existují optimální úroveň (ideal-point) latentního rysu, která maximalizuje pravděpodobnost určité odpovědi. ◦ Na obě strany od tohoto bodu pravděpodobnost klesá. ◦ Ordinální položky – zejm.: generalized graded unfolding model ◦ Binární položky – ideal-point model. Ideal-point modely https://www.slideserve.com/content/applying-ideal-point-irt-models-to-score-single-stimulus-and-pairwise-preference-personality-items Nonkompenzatorní IRT modely V případě multidimenzionálních IRT modelů jsme pracovali s předpokladem, že nízká míra jednoho rysu 𝜃1 může být kompenzována vysokou mírou jiného rysu 𝜃2. ln 𝑃𝑖 1 − 𝑃𝑖 = 𝑎𝑖1 𝜃1 + 𝑎𝑖2 𝜃2 + 𝑏𝑖 ◦ Snížení 𝜃1 o 𝑘 lze kompenzovat zvýšením 𝜃2 o 𝜃1 𝑎 𝑖1 𝑎 𝑖2 , protože 𝑎𝑖1 𝜃1 + 𝑎𝑖2 𝜃2 + 𝑏𝑖 = 𝑎𝑖1 𝜃1 − 𝑘 + 𝑎𝑖2 𝜃2 − 𝑘 𝑎𝑖1 𝑎𝑖2 + 𝑏𝑖 Co když ale správné zvládnutí položky vyžaduje více schopností; a selhání v kterékoli z nich znamená selhání? Např.: „Derivujte ICC 2PL IRT modelu“. ◦ Musím znát ICC 2PL IRT modelu, jinak nemám co derivovat. ◦ Musím být schopen derivovat logistickou funkci. Nonkompenzatorní IRT modely Čistě non-kompenzatorní modely jsou velmi řídké. Typicky se používají parciálně-kompenzatorní modely, např. (dvoudimenzionální model): 𝑃 𝑥 = 1 𝜃1, 𝜃2 = 𝑃1 𝑥 = 1 𝜃1 𝑃2 𝑥 = 1 𝜃2 ◦ kde P1, P2 jsou typicky 2PL IRT modely, a tedy: 𝑃 𝑥 = 1 𝜃1, 𝜃2 = 1 1 + exp −𝑎𝑖1 𝜃1 − 𝑏𝑖1 1 1 + exp −𝑎𝑖2 𝜃2 − 𝑏𝑖2 Výhoda je, že P1 může být běžný kompenzatorní vícedimenzionální model. ◦ V případě polytomické odpovědi lze snadno rozšířit do GRM. Explanační a LLTM modely Běžné IRT modely slouží k „vysvětlení“ pozorovaných odpovědí. Explanační modely se snaží „vysvětlit“ parametry položek (typicky obtížnost). ◦ Obtížnost položky je parcelována na různé složky podle charakteristik položek. ◦ Využívá se v experimentálním designu. Explanační modely jsou konkrétním využitím LLTM modelu ◦ Linear Logistic Test Model. ◦ ICC (zpravidla 1PL model) je parametrizovaná jako běžný generalizovaný smíšený lineární model (GLMM), což umožňuje její odhad v rámci běžného statistického softwaru. ◦ Parametry obtížnosti položek a schopnosti lidí jsou parcelovány mezi náhodné a pevné efekty. Příklad explanačního LLTM Aproximate Number System (ANS): diskriminace velkého množství objektů. ◦ Respondenti měli po 300ms expozici za úkol zvolit, zda bylo vlevo více než vpravo. ◦ Schopnost diskriminace se řídí Weber-Fechnerovým zákonem. Obtížnost 𝜏𝑖 položky 𝑖 by měla být logaritmickou funkcí podílu obou množství 𝑁𝑖,1, 𝑁𝑖,2: 𝜏𝑖 = log2 𝑁𝑖,1 𝑁𝑖,2 Jedna z možných definicí LLTM modelu byla: 𝑃 𝑥 = 1 = 𝑐𝑖 + 1 − 𝑐𝑖 exp 𝜃 − 𝑥1 𝜏𝑖 + 𝑥2 𝑢𝑖 + 𝑥3 𝜏𝑖 𝑢𝑖 + 𝑥4 𝑛𝑖 + 𝑥5 𝜏𝑖 𝑛𝑖 + 𝑏𝑖 1 + exp 𝜃 − 𝑥1 𝜏𝑖 + 𝑥2 𝑢𝑖 + 𝑥3 𝜏𝑖 𝑢𝑖 + 𝑥4 𝑛𝑖 + 𝑥5 𝜏𝑖 𝑛𝑖 + 𝑏𝑖 ◦ 𝑥1–𝑥5 byly odhadované pevné efekty modelu a interakce. ◦ 𝑢𝑖 ∈ 0,1 – je vpravo více nebo méně než vlevo? Plus interakce s obtížností 𝜏𝑖 𝑢𝑖. ◦ 𝑛𝑖 = 𝑁 𝑖,1+𝑁𝑖,2 2 – absolutní počet prvků. Plus interakce s obtížností 𝜏𝑖 𝑛𝑖. ◦ 𝑏𝑖 ∈ N 0, 𝜎 𝑏 2 – náhodný efekt; obtížnost položky nevysvětlitelná ostatními explanačními proměnnými. Šamajová & Cígler (2020), Cígler & Šamajová (2020) IRTree modely Zobecněný Tutzův sekvenční model. „Průchod“ položkou nemusí být sekvenční, ale libovolně se větví. Každý uzel navíc může být sycen jinými faktory. Užitečné v kombinaci s LLTM modely. 1PL/raschovská verze modelu lze odhadnout v běžném statistickém programu jako GLMM. Uzel 𝑌1 ∗ je sycený úrovní měřeného rysu Uzly 𝑌2 ∗ , 𝑌š ∗ jsou syceny „tendencí k extrémním odpovědím“. Boeck, P. De, & Partchev, I. (2012). IRTrees: Tree-Based Item Response Models of the GLMM Family. Journal of Statistical Software, 48(Code Snippet 1), 1–18. https://doi.org/10.18637/jss.v048.c01 Příklad IRTree modelu Test TIM3–5: správné odpovědi se řídily PCM modelem s jedním či dvěma body. Chybné odpovědi byly skórované 0=chybné řešení, nebo N=nepokusil/a se o řešení. Výsledky: ◦ Latentní rys „styl práce“ byl relativně reliabilní ◦ Jen slabě koreloval se schopností matematického usuzování. ◦ Zdá se, že učitel má vyšší vliv na styl práce než na samotné usuzovaní. ◦ Pokud je styl práce zanedbán, podílí se na celkové úrovni latentního rysu, nadhodnocuje reliabilitu a snižuje validitu měření. Vybrané aplikace IRT: Počítačové adaptivní testování (CAT) Equating, linking Využití IRT Běžné ověření (konfirmační IRT) a explorace (explorační IRT) faktorové struktury. IRT jako nástroj pro škálování. IRT jako výzkumný nástroj (explanační modely). IRT jako model měření. DIF analýza a MG IRT (viz přednáška o férovosti). Další specifická využití. ◦ CAT, linking, equating. Počítačové adaptivní testování Computerized Adaptive Testing (CAT) 1. myšlenka: Nemá smysl administrovat respondentovi takové položky, které nezpřesní odhad jeho latentního rysu. ◦ Jsou pro něj příliš jednoduché (téměř jistě je odpoví správně) ◦ Případně příliš těžké (téměř jistě odpoví chybně). ◦ Takové položky nesou příliš málo informace (nízká hodnota informační funkce). 2. myšlenka: IRT nevadí chybějící data. Pracuje s dílčími položkami, nikoliv celým testem. Použití: TOEFL, GRE, v ČR A3DW či ATAVT od Schufrieda, Invenio od IVDMR ). Počítačové adaptivní testování: Postup 1. Administruji úvodní set položek a odhadnu úroveň latentního rysu. 2. Vyberu a administruji položku, která má pro danou úroveň rysu maximální odpověďovou funkci. ◦ Tedy (u 1PL), jejíž obtížnost je nejblíže úrovni odhadnuté schopnosti (P 𝜃 = 0,5). ◦ Případně nepatrně lehčí (typicky 0,5 < P 𝜃 < 0,7), abych respondenta motivoval. ◦ Často ještě randomizace, aby se neopakovaly stále tytéž položky (s největším a-parametrem). 3. Odhadnu znovu rys. 4. Opakuji kroky 2 a 3, dokud nedosáhnu pravidla ukončení. ◦ Vyčerpám všechny položky. ◦ Standardní chyba odhadu se sníží pod stanovenou mez. ◦ apod. Počítačové adaptivní testování: Výhody Efektivnější testování. ◦ Zkrácení testu při zachování reliability / Zvýšení reliability při zachování délky testu. Větší množství položek, každý má trochu jiné položky. ◦ Redukce možnosti opisovat. ◦ Snížení rizika a hlavně důsledků případného úniku položek. ◦ Respondent nemusí odpovídat na neadekvátní položky (příjemnější testování). Lze využít i při individuální administraci. ◦ Např. s využitím administrace na tabletu. Test equating (vyvažování testů) Vyvážení obtížnosti jednotlivých forem testu. ◦ V high stakes testech jednorázové vyvážení – sjednocení obtížností a srovnání probandů napříč formami testu. ◦ V psychologických metodách vyvážení skóru paralelních forem a vyvinutí rovnocenných nástrojů. ◦ Linking (prosté srovnání měřítek) vs. equating (zajištění stejné škály). Předpoklad: Obě formy měří stejný konstrukt (otázka validity). GRE, SAT: od konce 80./začátku 90. let je (v USA) IRT equating high stakes testů normou. Typické kroky: volba designu, sběr dat, samotná transformace. Test equating (vyvažování testů) Tři klasické způsoby založené na pozorovaném skóre: ◦ Vyvažování na základě průměru (M) – testy musí mít stejné rozptyly, data musí být normálně rozdělená. 𝑥2 = 𝑥1 + 𝑋2 − 𝑋1 ◦ Lineární vyvažování (M, SD) – rozptyly se mohou lišit, data musí být normální. 𝑥2 = ത𝑋2 + 𝜎2 𝜎1 𝑥1 − ത𝑋1 (transformace přes z-skór) ◦ Equipercentilové vyvažování – varianty jsou upraveny tak, aby tentýž skór měl v obou variantách stejný percentil. Výsledkem je stejné rozdělení dat, je silně závislé na vzorku (použitelné jen u velkých souborů). ◦ Používá se i pro standardizaci nenormálních skórů na normální. ◦ Percentilové vyvažování není vyvažování, percentil z principu ztrácí část informace. Žádné zvláštní požadavky na data. IRT vyvažování bylo prvními hromadnými aplikacemi IRT do praxe. IRT equating: Sběr dat Celá řada různých designů. Designy s jednou výzkumnou skupinou: single-group design. ◦ Každá osoba absolvuje oba testy (counterbalancing = střídání pořadí). ◦ Případně část respondentů absolvuje oba testy (common-person design). Designy s náhodnými skupinami: random-group design, random-equivalent-group. ◦ Respondenty náhodně přiřadíme do výzkumných skupin. Předpokládáme, že jsou ekvivalentní. Designy se společnými položkami: ◦ Dvě nezávislé/nenáhodné skupiny, ale oba testy mají společné položky (tzv. „kotvu“ – anchor test), které slouží ke kalibraci. Největší spolehlivost a hlavní výhoda IRT. ◦ Ta může, ale nemusí být zahrnuta pro zjištění celkového skóru. ◦ Kotev může být více („planned missing data design“). Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti : anchor-item design : post-equating design post-equating : design Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti Design použitý v Caribbean Secondary Education Certificate (Stancel-Piątak, Cígler, Wild, 2018).