Přednáška 9–10: Teorie odpovědi na položku 19. a 26. 11. 2024 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler & Petr Palíšek | cigler@fss.muni.cz Přímé a nepřímé měření: Extenzivní vs. intenzivní veličiny Extenzivní veličina: samotný atribut je aditivní. ◦ 3 cm + 5 cm = 8 cm. ◦ Rozdělením celku vzniknou části. Součet míry jejich atributů je roven původnímu celku. ◦ Umožňuje přímé měření srovnáním s etalonem, např. přiložením pravítka. ◦ Délka, hmotnost, objem, elektrický odpor, Δt. Intenzivní veličina: atribut aditivní není, ale má kvantitativní povahu. ◦ 200 K + 50 K ≠ 250 K. ◦ Každá část rozděleného celku bude mít stejnou míru atributu jako původní celek. ◦ Nelze „přiložit“ měřicí nástroj; umožňuje pouze nepřímé měření. ◦ Campbel (1940): kvalita, nikoli kvantita předmětu. ◦ Hustota, teplota, tlak. Přímé a nepřímé měření: Koordinační funkce Funkce, která prováže pozorování s atributem. Přímé měření: zpravidla jednoduchá lineární funkce 𝐿 = 𝑓 𝐼 = 𝑥 ∙ 𝛿𝐼 + 𝐼0 ◦ 𝑥 – naměřená hodnota; 𝛿𝐼 – jednotka; 𝐼0 – referenční bod Nepřímé měření: funkce využívající zpravidla více přímých a nepřímých veličin. ◦ Jen zřídka je lineární. ◦ Např. hustota: 𝜌 = 𝑓 𝑚, 𝑉 = 𝑚 𝑉 Dva hlavní cíle při vývoji exaktního měření v psychologii na přelomu 19./20. století: ◦ 1. Vytvořit koordinační funkci. ◦ 2. Stanovit dostatečně spolehlivou jednotku, resp. referenční bod (kalibrace). Počátky měřicích škál Kategorické či ordinální pozorování bylo nutné provázat s domnělým kvantitativním, spojitým, intervalovým rysem. Vizuální analogová škála (Hayes a Patterson, 1921). ◦ Apriori předpokládaná lineární koordinační funkce neobstála. Metoda stejně se jevících intervalů (Thurstone, 1928). ◦ Namísto volby vhodné koordinační funkce využil předběžnou kalibraci podnětového materiálu tak, aby mohl výslednou funkci považovat za lineární. ◦ Pět různých modelů měření. ◦ Law of Comparative Judgement – vychází z Weberova-Fechnerova zákona. Likertova škála (1932). Pragmatický přístup: ◦ Metoda sigma: Kalibraci na základě předpokladu normálního rozložení ve výzkumném souboru. ◦ „Jednodušší“ metoda: Z důvodu prakticky perfektní korelace začala být preferovaná. Počátky měřicích škál Guttmanova škála (1944, 1950). ◦ Úzce vychází z Boggardovy škály sociální distance (1924). ◦ Seřazená série jednodimenzionálních úkolů. ◦ Za dodržení předpokladů je ale výsledek stále ordinální, nikoli intervalový. ◦ Předpoklad: Zachování tranzitivity výroků napříč populací respondentů. Další postupy. ◦ Např. Q-sort a Q-řazení a další. Accepts Immig. in Country Accepts Immig. in Town Accepts immig. in Neigbor hood Accepts Immig. Next Door Accepts Immig. as Spouse Celkové skóre 0 0 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 2 1 1 1 0 0 3 1 1 1 1 0 4 1 1 1 1 1 5 Jde o „měření“? | Likertova škála Rosenber Self-Esteem Scale (první 4 položky) souhlasím spíše souhlasím spíše nesouhlasím nesouhlasím Jsem se sebou vcelku spokojený/spokojená. 3 2 1 0 Občas si myslím, že jsem k ničemu. 0 1 2 3 Cítím, že mám řadu dobrých vlastností. 3 2 1 0 Cítím, že toho není mnoho, na co bych u sebe mohl/mohla být hrdý/hrdá. 0 1 2 3 Celkový skór: suma počtu bodů z dílčích položek. Jde o „měření“? | Měření pozornosti Celkový skór 1: Počet prvků/řádků za jednotku času. Alternativní skór 1: Čas průchodu testem. Celkový skór 2: Počet chyb. Test pozornosti d2 Postupujte po řádcích a zaškrtněte všechna „d“ s 2 značkami nad nebo pod písmenem. https://commons.wikimedia.org/wiki/File:D2-Test.jpg Měření v rámci CTT Dotazník pro pacienty s anorexií (př. Bond & Fox, 2009): ◦ 1. Pravidelně zvracím, abych si udržel/a svou váhu. ◦ 2. Počítám gramy tuku na jídle, které jím. ◦ 3. Tvrdě cvičím, abych spálil/a kalorie. Odpovědi: nesouhlasím (1), spíše nesouhlasím (2), tak napůl (3), spíše souhlasím (4), souhlasím (5) ◦ rxx' = 0,75; M = 3; SD = 3; ◦ SE = 1,5, CI95% = 2,94. otázka respondent 1 respondent 2 1 spíše nesouhlasím (2) souhlasím (5) 2 spíše souhlasím (4) souhlasím (5) 3 souhlasím (5) nesouhlasím (1) hrubý skór: 11 11 ◦ CTT: oba lidé mají z hlediska CTTstejný hrubý skór, a tedy i míru anorexie i intervaly spolehlivosti. ◦ IRT: výsledky nejsou rovnocenné – jiný „person-fit“ (1PL), případně i chyby měření a skóry (2PL). (6,06–11,94) (6,06–11,94) Teorie odpovědi na položku (IRT) Item Response Theory (IRT). IRT je pokusem definovat koordinační funkci na úrovni jediné testové položky. ◦ Tzv. charakteristická funkce položky (Item Characteristic Curve/Function, ICC/ICF). Existuje velké množství (desítky až stovky) různých IRT modelů. ◦ Testy a dotazníky se liší svým formátem, proto vyžadují i jinou ICC. ◦ Modely se dále liší svými předpoklady a variabilitou ICC podle použitých parametrů. Příklad: Nezávislost měření na nástroji TIM3–5: Test pro identifikaci matematicky nadaných dětí ◦ Test je velmi obtížný, aby dobře měřil nadprůměr. ◦ rxx‘ = 0,82; M = 8,51; SD = 6,72; min = 0; max = 33 ◦ Předpoklad: Rozložení matematických schopností je v populaci normálně rozložené. ◦ Závěr: Jaké budou naměřené skóry? 0 10 20 30 40 50 60 70 0 3 6 9 12 15 18 21 24 27 30 33 36 Rozložení hrubých skórů (CTT) 0 5 10 15 20 25 30 35 40 45 -1,3 -1 -0,7 -0,4 -0,1 0,2 0,5 0,8 1,1 1,4 1,7 2 2,3 2,6 Rozložení standardizovaných skórů (CTT) 0 5 10 15 20 25 30 35 40 45 -5,01 -4,41 -3,81 -3,21 -2,61 -2,01 -1,41 -0,81 -0,21 0,39 0,99 1,59 2,19 2,79 3,39 3,99 4,59 Rozložení IRT odhadů Jak by vypadalo rozložení u testu, měřícího deficit (dyskalkulie...)? Měření v rámci CTT je vždy vztaženo k měřícímu nástroji. Měření v rámci IRT může být (více méně) na nástroji nezávislé. Kolmogorův-Smirnovův test (MC, p-value) ročník 3 (n = 243) 4 (n = 276) 5 (n = 278) hrubé skóre <0,001 0,001 0,001 W-skóre <0,001 0,065 0,061 Příklad: Nezávislost měření na nástroji Vývoj teorií odpovědi na položku 50. a 60. léta, další rozvoj v 80. letech (počítače). Nezávisle na sobě G. Rasch (matematik), F. M. Lord (psycholog, psychometrik) a P. F. Lazarsfeld (sociolog). Jde o stochastickou úpravu původně deterministického Guttmanova modelu. Tři hlavní stádia vývoje: ◦ Předchůdci, do 50. let (Binet, Guttman, Thurstone...) ◦ Raný vývoj, 50.–60. léta (Rasch, Novick, Lord...) ◦ Rozvoj, 70.–80./90. léta (Bock, Samejima...) ◦ Sjednocování a zobecňování (od 90. let) Paul Felix Lazarsfeld (1901–1976) Louis Guttman (1916–1987) Frederic M. Lord (1912–2000) van der Linden, W. J. (2016). Introduction. In W. J. van der Linden (ed.), Handbook of Item Response Theory, vol. 1: Models, pp. 1–10. Boca Raton: CRC Press. Extrémní příklad Máme položku ve faktorové analýze ◦ Skórovaná ne=0, tak napůl=1, ano=2. ◦ Průsečík (intercept): b = 1. ◦ Faktorový náboj: λ = 0,5. Faktor má průměr 0 (SD=1). E 𝑥𝑖𝑝 = 𝜆𝑖 𝜃 𝑝 + 𝑏𝑖 Jaká je očekávaná odpověď, E(xi), respondenta s hodnotou faktoru... ... θ = 0 ? ◦ E(xi) = 1 ... θ = 1 ? ◦ E(xi) = 1,5 ... θ = -1 ? ◦ E(xi) = 0,5 ... θ = 2 ? ◦ E(xi) = 2 ... a konečně θ = 3 ? ◦ E(xi) = 2,5 Jaký je vztah měřeného rysu a odpovědi na binární položku (správně/špatně)? Například vztah „fluidní inteligence“ a správné/špatné odpovědi na jednu úlohu v Ravenových progresivních matricích. Základy IRT: Charakteristická funkce položky (ICC) Výkon probanda v položce lze odhadnout pomocí množiny latentních rysů. ◦ Schopnosti respondenta. ◦ Parametry položek. Item Characteristic Curve (ICC): ◦ Má (zpravidla) přibližně tvar kumulativního normálního rozdělení. ◦ Popisuje vztah mezi schopností probandů a očekávaným výkonem v dané položce. ◦ Pravděpodobnost správné odpovědi podle parametrů položky a probanda. ◦ Tvar ale může být prakticky libovolný (různé modely). Srovnání modelů měření (Borsboom, 2005) KLASICKÁ TESTOVÁ TEORIE Měřený atribut: Pravý skór daného člověka v daném testu. Lineární vztah pravého a pozorovaného skóre. Homoskedasticita ◦ Stejný chybový rozptyl pro všechny respondenty a všechny úrovně pravého skóre MODELY S LATENTNÍMI PROMĚNNÝMI Měřený atribut: Předpokládaný latentní rys. Faktorová analýza ◦ Lineární vztah pozorované odpovědi a latentního rysu. ◦ Homoskedasticita reziduí. Teorie odpovědi na položku ◦ Nelineární (zpravidla logistický) vztah pozorované odpovědi a latentního rysu. FA jako specifický příklad IRT FA lze chápat jako specifický případ IRT. ◦ Charakteristická funkce (vztah odpovědi a rysu) je lineární. ◦ Mellenbergh, G.J. (2016). Models for Continuous Responses. In W.J. van der Linden (ed.), Handbook of Item Response Theory (vol. 1), 181-192. Chapman and Hall/CRC Press. FA „váží“ odpovědi. ◦ V předchozím příkladu s anorexií by obě dívky měly odlišný odhad faktorového skóru. Někdy totiž lze lineární vztah předpokládat. ◦ Např. hierarchická struktura v CHC, kdy „položkou“ je celý „subtest“. ◦ Např. reakční časy (jsou-li dostatečně dlouhé a normálně rozložené – nebo logaritmizované). ◦ Jiné dostatečně „jemné“ položky (jsou-li normálně rozložené). Nedodržení předpokladu linearity ale působí řadu obtíží. ◦ Vícedimenzionalita, zejm. tzv. „difficulty factor“ v inteligenčních testech (McDonald, 1965; ten Berge, 1972). FA jako specifický příklad IRT Faktorová analýza je „limited information estimator“. ◦ Pro odhad využívá kovarianční (korelační) matici – má tedy informaci pouze o bivariačních vztazích položek, nikoli originální data. ◦ V případě ordinální FA bivariační frekvenční tabulky. ◦ Chybějící informace o bivariačních vztazích je zásadní překážka. ◦ Výhoda: lze snadno estimovat velké množství faktorů. IRT je „full information approach“. ◦ Estimace probíhá přímo nad zdrojovými daty. ◦ Chybějící bivariační informace není problém a nezkresluje odhady parametrů modelu. ◦ Nevýhoda: Výpočetní náročnost exponenciálně roste s počtem faktorů, velký počet dimenzí je problém. Někdy se proto pro IRT používá termín „item-factor analysis“. Základní logistické IRT modely pro binární položky Raschův model, 1PL–4PL, charakteristická funkce položky. A teď mě vyrob tento obrázek. Neměň prosím slovní zadání příkazu: "An item characteristic function (as understood in item response theory) in a cubist style". Jednoparametrový Raschův model (1PL) Logistický vztah rysu a odpovědi: 𝑃 𝑥𝑖 = 1 𝜃 = 𝑒 𝜃−𝑏 𝑖 1 + 𝑒 𝜃−𝑏 𝑖 Analogicky po úpravě: ln 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 = 𝜃 𝑝 − 𝑏𝑖 ◦ e = Eulerova konstanta ◦ ln = přirozený logaritmus (se základem e) ◦ Pro zjednodušení zápisu 𝑃 𝑥𝑖 = 1 𝜃 𝑝 = 𝑃𝑖𝑝 𝑃 𝑥𝑖 = 1 𝜃 je pravděpodobnost správné odpovědi na položku i při schopnosti . ◦ Tato pravděpodobnost se někdy nazývá také „odhad pravého skóre“ respondenta v dané položce (u binárních položek), analogie k E(𝜏 𝑝𝑖). Theta (𝜃 𝑝) je úroveň schopnosti respondenta 𝑝. ◦ Subskript p se zpravidla vynechává. 𝑏𝑖 je parametr obtížnosti položky 𝑖. ◦ Parametr obtížnosti 𝑏𝑖 položky 𝑖 je bod na škále schopnosti, v němž je pravděpodobnost správné odpovědi respondenta j se stejnou mírou schopnosti (𝜃 𝑝 = 𝑏𝑖) na danou položku 𝑃 𝑥𝑖 = 1 𝜃 = 0,5. http://fssvm6.fss.muni.cz/ICC/ snadnější položka / obtížnější položka / nižší úroveň rysu vyšší úroveň rysu Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = bi = -2 má 50 % pravděpodobnost správné odpovědi. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = bi = -2 má 50 % pravděpodobnost správné odpovědi. ◦ Analogicky respondent s θ = 0 odpoví správně s 88% pravděpodobností: ◦ 𝑃𝑖 𝜃 = 𝑒 0+2 1+𝑒 0+2 = 0,88. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = bi = -2 má 50 % pravděpodobnost správné odpovědi. ◦ Analogicky respondent s θ = 0 odpoví správně s 88% pravděpodobností: ◦ 𝑃𝑖 𝜃 = 𝑒 0+2 1+𝑒 0+2 = 0,88. ◦ A respondent s θ = 2 → 95 %. ◦ 𝑃𝑖 𝜃 = 𝑒 2+2 1+𝑒 2+2 = 0,98. Dvouparametrový model (2PL) Diskriminační parametr je rozlišovací schopnost položky: ukazuje, jak moc se liší „dobří“ a „špatní“ respondenti v očekávané pravděpodobnosti správné odpovědi. 𝑃𝑖 𝜃 = 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 ai je diskriminační parametr pol. i – naklonění ICC v bodě b. ◦ čím je křivka „plošší“, tím méně rozlišuje Analogií ai je ve faktorové analýze faktorový náboj. Charakteristická křivka položky 2PL Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál. Charakteristická křivka položky 2PL -4 -2 0 2 4 0.00.20.40.60.81.0 IRT odhad pravděpodobnost/true-score Diskriminační parametry (theta=1): a=0,5; p=0,70 a=1; p=0.85 a=2; p=0.97 Tříparametrový model (3PL) Zavádí parametr pseudouhádnutelnosti 𝑐𝑖 pro položky vícenásobné volby (multiple-choice): 𝑃𝑖 𝜃 = 𝑐𝑖 + 1 − 𝑐𝑖 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 ◦ ci je parametr (pseudo)uhádnutelnosti pro položku i. V multiple-choice testech lze nahradit Bockovým NRM nebo MC modelem. ◦ Modeluje přímo jednotlivé odpověďové možnosti (distraktory). Při prostém tipování je pravděpodobnost „náhodně správné“ odpovědi teoreticky 1/n, kde n je počet možných odpovědí. ◦ Tedy n-1 distraktorů a právě 1 správné odpovědi. Tento předpoklad je příliš silný, proto je lepší pro každou položku tuto pravděpodobnost odhadnout zvlášť. ◦ Některé distraktory mohou být evidentně chybné a respondent je vyloučí. ◦ Ideálně by se takové distraktory samozřejmě neměly vyskytovat... chytáky nefungují. -4 -2 0 2 4 0.00.20.40.60.81.0 IRT odhad pravděpodobnost/true-score Parametry uhádnutelnosti: c = 0 c = 0,25 c = 0,5 Charakteristické křivky položek 3PL c P(θ=0) P(θ=1) 0 0,5 0,73 0,25 0,63 0,80 0,5 0,75 0,87 Pozor – přestává platit poučka ze 2PL modelu: 𝜃 𝑝 = 𝑏𝑖 ⇒ 𝑃𝑖𝑗 = 0,5 ! V bodě 𝑏𝑖 je ale ICC nejstrmější. 𝑏𝑖 = 0 pro všechny položky Čtyřparametrový model (4PL) Použití spíše výjimečně pro specifické účely. Zpravidla malé výhody, zahrnutím dalších parametrů se naopak významně zhoršují vlastnosti modelu. ◦ Někdy je ale výhodné pracovat s horní namísto spodní asymptotou. 4PL: parametr „ledabylosti“ – ani nejlepší respondent nemá pravděpodobnost správné odpovědi rovnu 100 %. 𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 ◦ di je parametr ledabylosti; zpravidla bývá blízký 1. Technicky vzato existuje ještě 5PL model s asymetrickou odpověďovou funkcí. 𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 𝑒 𝑖 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖 𝑒 𝑖 Charakteristická křivka 4PL modelu -4 -2 0 2 4 0.00.20.40.60.81.0 IRT odhad pravděpodobnost/true-score 0.10.30.50.70.9  Parametry:  a = 1  b = 0  c = 0,25  d = 0,95  Pravěpodobnost:  Pi(θ=0)=0,61  Pi(θ=1)=0,77 𝑃𝑖 𝜃 = 𝑐𝑖 + 𝑑𝑖 − 𝑐𝑖 𝑒 𝐷𝑎 𝑖 𝜃−𝑏 𝑖 1 + 𝑒 𝐷𝑎 𝑖 𝜃−𝑏 𝑖 Srovnání 1PL–3PL modelů jednoparametrový model ◦ pouze parametr obtížnosti položky bi dvouparametrový model ◦ přidává diskriminační parametr ai tříparametrový model ◦ přidává parametr pseudo-uhádnutelnosti ci ◦ Ostatní symboly: ◦ schopnost respondenta: θ ◦ pravděpodobnost správné odp.: Pi ◦ i – číslo položky ◦ 4PL: di = 1 → 3PL ◦ 3PL: ci = 0 → 2PL ◦ 2PL: ai = 1 (nebo ai = a) → 1PL On-line ilustrace http://fssvm6.fss.muni.cz/ICC/ https://shiny.cs.cas.cz/ShinyItemAnalysis/ Různé formáty parametrizace a zápisu Rozdílné zápisy modelované pravděpodobnosti: 𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝 = 𝑃𝑖 𝜃 = 𝑃𝑖𝑝 = 𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝, 𝑏𝑖, 𝑎𝑖, 𝑐𝑖 Rozdílné možnosti zápisu (zde 1PL) modelu: 𝑃𝑖𝑝 = 𝑒 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝜃 𝑝−𝑏 𝑖 = 1 1 + 𝑒− 𝜃 𝑝−𝑏 𝑖 = exp 𝜃 𝑝 − 𝑏𝑖 1 − exp 𝜃 𝑝 − 𝑏𝑖 = 1 1 + exp 𝑏𝑖 − 𝜃 𝑝 Exponenciální vs. logistický zápis: 𝑃𝑖𝑝 = 𝑒 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝜃 𝑝−𝑏 𝑖 ~ ln 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 = 𝜃 𝑝 − 𝑏𝑖 Tradiční IRT parametrizace (2PL modelu): 𝑃𝑖𝑝 = 𝑒 𝑎 𝑖 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃 𝑝−𝑏 𝑖 Intercept-slope parametrizace: 𝑃𝑖𝑝 = 𝑒 𝑎 𝑖 𝜃 𝑝+𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝜃 𝑝+𝑏 𝑖 Výhody intercept-slope parametrizace Výhoda 1: multidimenzionální (Reckaseho, kompenzatorní) model 𝑃𝑖𝑝 = 𝑒 𝑎 𝑖1 𝜃 𝑝1+𝑎 𝑖2 𝜃 𝑝2+ … +𝑎 𝑖𝑛 𝜃 𝑝𝑛+𝑏 𝑖 1 + 𝑒 𝑎 𝑖1 𝜃 𝑝1+𝑎 𝑖2 𝜃 𝑝2+ … +𝑎 𝑖𝑛 𝜃 𝑝𝑛+𝑏 𝑖 Výhoda 2: srovnání s faktorovou analýzou Faktorová analýza: E 𝑥𝑖𝑝 = 𝑎𝑖1 𝜃 𝑝1 + 𝑎𝑖2 𝜃 𝑝2 + … + 𝑎𝑖𝑛 𝜃 𝑝𝑛 + 𝑏𝑖 ◦ S reziduálním rozptylem 𝜎𝑖 2 shodným pro všechny odpovědi na danou položku. ◦ faktorový náboj 𝑎𝑖 se zpravidla značí jako 𝜆𝑖 IRT: ln 𝑃 𝑖𝑝 1−𝑃 𝑖𝑝 = 𝑎𝑖1 𝜃 𝑝1 + 𝑎𝑖2 𝜃 𝑝2 + … + 𝑎𝑖𝑛 𝜃 𝑝𝑛 + 𝑏𝑖 E 𝑥𝑖𝑝 = 𝑃𝑖𝑝 ◦ S reziduálním rozptylem 𝑃𝑖𝑝 1 − 𝑃𝑖𝑝 (rozptyl binární proměnné) různým napříč respondenty. Probitové modely Někdy též „normal-ogive models“. 𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝 = Φ 𝜃 𝑝 − 𝑏𝑖 𝜎𝑖 = Φ 𝑎𝑖 𝜃 𝑝 − 𝑏𝑖 ◦ Φ – kumulativní distribuční funkce standardního normálního rozložení. ◦ 𝜎𝑖 = 1 𝑎 𝑖 – směrodatná odchylka (analogie diskriminačního parametru). Škálovací konstanta 𝐷 = 1,7 zajistí, aby oba modely měly podobný průběh ICC. 𝑃 𝑥𝑖𝑝 = 1 𝜃 𝑝 = 𝑒 𝑎 𝑖 𝐷 𝜃 𝑝−𝑏 𝑖 1 + 𝑒 𝑎 𝑖 𝐷 𝜃 𝑝−𝑏 𝑖 Předpoklady IRT Realismus: latentní rys existuje a jde o spojitou intervalovou proměnnou. ◦ Zpravidla navíc i normálně rozloženou. ◦ Ale... diskrétní IRT modely, LCA, estimátory pro nenormálně rozložený latentní rys. Lokální nezávislost položek. ◦ Veškeré vzájemné vztahy položek lze vysvětlit působeným modelovaných latentních rysů. ◦ Tzn. parciání vztah položek po kontrole úrovně latentního rysu je nulový. ◦ V případě jediného rysu: jednodimenzionalita. Odpovědi lidí na položku lze modelovat prostřednictvím ICF. ◦ Charakteristická funkce položky (ICF = Item Characteristic Function) ◦ Někdy též Item Response Function (IRF), Item Characteristic Curve (ICC) atd. ◦ Ale... Mokkenovo škálování a neparametrické IRT. Přednáška 9–10: Teorie odpovědi na položku 2. ČÁST PŘEDNÁŠKY Opakování první části přednášky Koordinační funkce, předchůdci IRT a počátky měřicích škál. Teorie odpovědi na položku (IRT): realistický model měření. Klíčové téma IRT: vztah latentního rysu a manifestních odpovědí na položky. Faktorová analýza jako specifický případ IRT. Charakteristická funkce položky (ICC). Různé IRT modely mají různé ICC: 1PL, 2PL, 3PL. Parametr obtížnosti, diskriminace, pseudouhádnutelnosti. Různé zápisy a parametrizace. Obsah druhé části přednášky Další IRT modely Charakteristická funkce testu. Odhad míry latentního rysu, IRT škálování, IRT skóry. Práce s chybou: Informační funkce položky, testu, chyba měření. Shoda modelu s daty. IRT modely pro polytomní data. Ordinální faktorová analýza (item-factor analysis). Klíčové oblasti využití IRT. ◦ Počítačově adaptivní testování. ◦ Vyvažování paralelních forem testu. Další IRT modely Graded Response Model Generalized Partial Credit Models Tutzův sekvenční model Bockův Nominal Response Model Ordinální faktorová analýza … Zadání: “Teor-e zobecnitelnost- je jednoduchá a –rozumitelná.” Odpověď 1: “Teorye zobecnitelnosti je jednoduchá a srozumitelná.” Odpověď 2: “Teorie zobecnitelnosti je jednoduchá a srozumitelná.” Zadání: “Teor-e zobecnitelnost- je jednoduchá a –rozumitelná.” Odpověď 1: “Teorye zobecnitelnosti je jednoduchá a srozumitelná.” Odpověď 2: “Teorie zobecnitelnosti je jednoduchá a srozumitelná.” Rádi bychom 2 hodnotili jako lepší než 1. Zadání: “Teor-e zobecnitelnost- je jednoduchá a –rozumitelná.” Odpověď 1: “Teorye zobecnitelnosti je jednoduchá a srozumitelná.” Odpověď 2: “Teorie zobecnitelnosti je jednoduchá a srozumitelná.” Rádi bychom 2 hodnotili jako lepší než 1. Partial Credit Model (analogie 1PL) Graded Response Model (analogie 2PL) Graded Response Model (GRM) 𝑃𝑖𝑥 ∗ 𝜃 = 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 𝑃𝑖𝑥 𝜃 = 𝑃𝑖𝑥 ∗ 𝜃 − 𝑃𝑖 𝑥+1 ∗ 𝜃 E 𝑋𝑖 = ෍ 𝑗=1 𝐾 𝑗𝑃𝑖𝑗 ∗ 𝜃 Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074 Graded Response Model (GRM) Zobecnění 2PL modelu (Samejima, 1969): série 2PL modelů: 𝑃𝑖𝑥 ∗ 𝜃 = 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 1 + 𝑒 𝑎 𝑖 𝜃−𝑏 𝑖𝑥 𝑃𝑖𝑥 𝜃 = 𝑃𝑖𝑥 ∗ 𝜃 − 𝑃𝑖 𝑥+1 ∗ 𝜃 Dvoukrokový odhad pravděpodobnosti: ◦ Pro každou odpověď 𝑥 je odhadnuta pravděpodobnost 𝑃𝑖𝑥 ∗ 𝜃 , že respondent odpoví touto nebo vyšší odpovědí (vs. nižší). 𝑏𝑖𝑥 - obtížnost kategorie 𝑥 na položce 𝑖. Pro účely výpočtu je nejnižší kategorie 𝑃𝑖 𝑥=0 ∗ 𝜃 = 1 ◦ Výsledná pravděpodobnost konkrétní odpovědi 𝑃𝑖𝑥 𝜃 je rozdílem odhadnuté pravděpodobnosti a pravděpodobnosti o jedna „vyšší/těžší“ odpovědi. Modified Graded Response Model (MGRM, Muraki, 1990); někdy též GRSM. ◦ 𝑃𝑖𝑥 ∗ 𝜃 = 𝑒 𝑎 𝑖 𝜃− 𝑏 𝑖−𝑐 𝑗 1+𝑒 𝑎 𝑖 𝜃− 𝑏 𝑖−𝑐 𝑗 , kde 𝑐𝑗 jsou parametry jednotlivých prahů 𝑗 a 𝑏𝑖 obtížnost položky 𝑖. (-3)2 = ? a) 5 b) 9 c) -9 d) 6 (-3)2 = ? a) 5 (strašná) b) 9 (správná) c) -9 (něco mezi) d) 6 (strašná) Co když chceme rozlišovat mezi špatnými a strašnými odpověďmi? (-3)2 = ? a) 5 (strašná) b) 9 (správná) c) -9 (něco mezi) d) 6 (strašná) Co když chceme rozlišovat mezi špatnými a strašnými odpověďmi? Nominal Response Model Nested Logit Model Multiple-Choice Model Nominal Response Model Using the Distractor Categories of Multiple-Choice Items to Improve IRT Linking Nominal Response Model (NRM) Nominal Response Model (NRM) Polytomní IRT modely Určeny pro práci s položkami s více odpověďmi. ◦ Např. Likertova škála 1-7, částečně správné odpovědi ve výkonovém testu nebo multiplechoice položky. ◦ Na rozdíl od CTT mohou vést k doporučení zvýšit či snížit počet kategorií položek. ◦ Zpravidla 1PL či 2PL. Modely pro nominální či ordinální kategorie. 3 hlavní kategorie polytomních modelů1: ◦ difference models (GRM, MGRM) – výhradně ordinální kategorie ◦ divide-by-totals (PCM, GPCM, NRM) ◦ sekvenční modely (Tutzův sekvenční model) 1 Sijtsma, K., & Hemker, B. (2000). A Taxonomy of IRT Models for Ordering Persons and Items Using Simple Sum Scores. Journal of Educational and Behavioral Statistics, 25(4), 391-415. http://www.doi.org/10.2307/1165222 Polytomní modely (z rychlíku) Ordinální data ◦ (Generalized) Partial Credit Model (GPCM, PCM) – původně určený pro výkonová data, kde se skóre položky sestává z dílčích samostatně skórovaných kategorií. ◦ Graded Response Model (GRM) – původně určený pro dotazníky, kde respondent zaznamenává spojitou, kontinuální míru „souhlasu“ na ordinální škále. Nominální data ◦ Nominal Response Model (NRM) – každá odpověďová kategorie je modelovaná zvlášť. ◦ Multiple-choice Model (MCM) – dílčí úprava NRM vhodné pro MC data. “Můj pokoj je poměrně uklizen.” ANO / NE “Myslím, že jsem úzkostná asi tolik jako jiní lidé.” ANO / NE “Čas od času mne trápí myšlenky na budoucnost.” ANO / NE Jak by vypadala charakteristická funkce? “Můj pokoj je poměrně uklizen.” ANO / NE “Myslím, že jsem úzkostná asi tolik jako jiní lidé.” ANO / NE “Čas od času mne trápí myšlenky na budoucnost.” ANO / NE Jak by vypadala charakteristická funkce? Ideal-Point Model Ukázka ideal-point modelu https://www.slideserve.com/content/applying-ideal-point-irt-models-to-score-single-stimulus-and-pairwise-preference-personality-items Srovnání modelů Běžné modely: divided-by-total a graded modely. Embretson a Reise (2009) IRT model s normativním prvkem Typické využití IRT směřuje k dobrému popisu dat (odpověďových procesů). Data jsou “fixed”, ovlivnit můžeme jen podobu modelu. Co když ale chceme vytvořit ideální test? Jaké by měl vlastnosti? IRT model s normativním prvkem Typické využití IRT směřuje k dobrému popisu dat (odpověďových procesů). Data jsou “fixed”, ovlivnit můžeme jen podobu modelu. Co když ale chceme vytvořit ideální test? Jaké by měl vlastnosti? Součtový skór by byl dostatečnou statistikou pro odhad latentní schopnosti. Položky by byly stejně obtížné bez ohledu na testované osoby a ostatní položky v testu. Aditivita. Raschův model Osoby a položky jsou na společné škále. Veškeré informace, které jsou podstatné pro šanci na úspěch při řešení položky, jsou obsažené v obtížnosti položky a schopnosti člověka. Chceme dosáhnout situace, kde je p. správné odpovědi závislá jen na vzdálenosti mezi obtížností a schopností: 𝑃 𝑋 = 1 | 𝜃, 𝛿 ≈ 𝜃 − 𝛿 Což platí pro: ln 𝑃 𝑋 = 1 | 𝜃, 𝛿 𝑃 𝑋 = 0 | 𝜃, 𝛿 = 𝜃 − 𝛿 Raschův model ln 𝑃 𝑋 = 1 | 𝜃, 𝛿 𝑃 𝑋 = 0 | 𝜃, 𝛿 = 𝜃 − 𝛿 Což po úpravě odpovídá: 𝑃 𝑋 = 1 𝜃, 𝛿 = 𝑒 𝜃−𝛿 1 + 𝑒 𝜃−𝛿 https://youtu.be/FdtpgMVP1EI Ben Wright odvozuje Raschův model Raschův model Z pohledu “raschisty” se přidáváním parametrů kazí pravítková podoba modelu. Než měnit model, bude raději měnit data. ◦ Lepší položky ◦ Lepší teorie ◦ Lepší administrace ◦ Čištění respondentů https://www.researchgate.net/publication/40039735_The_Attack_of_the_Psychometricians RM: Spolehlivost položky (infit, outfit) Ukazatel, jak položka/respondent odpovídá Raschovu modelu. ◦ Položky: Odpovídali respondenti na položku dle předpokladu? ◦ Respondenti: Odpovídal respondent na položky dle předpokladu? ◦ Je založená na průměru sumy čtverců standardizovaných reziduí probanda/položky s df=n-1. ◦ Pozor: vysoká hodnota se neintuitivně označuje jako „underfit“, nízká „overfit“! Vysoká hodnota (underfit): respondent/i odpovídal/i více náhodně. ◦ Méně „guttmanovská“ škála, než jsme předpokládali. Nízká hodnota (overfit): respondent/i odpovídal/i méně náhodně. ◦ Více „guttmanovská“ škála, než jsme předpokládali. Příklad: ◦ obtížnost položek: snadné ....... střední ........ těžké. ◦ stochastická předpověď (průměrný fit): 111...1101100100...000. ◦ deterministická odpověď (overfit): 111...1111100000...000. ◦ nahodilá odpověď: (underfit): 101...1010101010...010. ◦ špatný tip (vliv na outfit): 111...1101100100...001. ◦ nepozornost (vliv na outfit): 011...1101100100...000. ◦ náhodná znalost (vliv na infit): 111...1101111100...000. Jaká křivka by se zde hodila namísto RM? A) UNDERFIT BI=-2,24; INFIT 1,13 (T=1,8), OUTFIT 1,42 (T=2,7) B) OVERFIT BI=0,95; INFIT 0,74 (T=-2,0), OUTFIT 0,3 (T=-1,7) Srovnání Raschova a 1PL–3PL přístupu RASCHŮV MODEL (1PL) Spíše konfirmační princip (data musí odpovídat modelu). Pouze 1. parametr, a=1, zbytek je „šum“. ◦ Všechny pol. diskriminují (teoreticky) stejně. Cílem je fundamentalita škály, invariance odhadu. Menší závislost odhadů na položkách/respondentech. Nižší počet parametrů → nižší počet respondentů. Vhodnější pro konstrukci diagnostických testů (SB-V, Leiter-3, v ČR pak WJ-IV, KIT a další) Možnost žádných předpokladů o rozložení latentního rysu (JML estimátor). IRT (1PL, 2PL, 3PL...) Spíše explorační princip (přizpůsobuje model datům). Počet parametrů, který nejlépe popíše data. ◦ Diskriminace položek se může lišit. Důraz je kladen na výběr „nejlepšího“ modelu. Vyšší závislost odhadů na položkách/respondentech. Vyšší počet parametrů → vyšší počet respondentů. Vhodnější pro test-equating v high-stakes testech (SAT, GRE, SCIO, SK maturita) a adaptivní testování. Zpravidla předpoklad normálního rozdělení (MML, CML aj. estimátory). Ordinální faktorová analýza Ordinální faktorová analýza je založená na tetrachorických (binární položky), respektive polychorických korelacích (ordinální položky). Tetrachorická/polychorická korelace: ◦ Existuje spojitá, intervalová, normálně rozložená latentní odpověď (LR, Latent Response). ◦ Ta není přímo pozorovaná (je latentní). ◦ Manifestuje se pouze jako ordinální kategorie. ◦ Pokud LR překročí příslušný práh položky, pozorujeme vyšší kategorii. Tetra/poly korelace jsou odhadovány na základě bivariačních frekvenčních tabulek. Ordinální FA tedy faktoruje matici polychorických korelací. ◦ Tradiční postup: Odhadne se polychorická matice a ta vložena do EFA. ◦ Modernější postup: polychorická matice a parametry FA jsou odhadovány naráz pomocí DWLS/WLSMV estimátoru. Tetrachorická korelace (ρ = 0,6) Tetrachorická korelace (ρ = 0,6) Ordinální faktorová analýza Klasická CFA: latentní faktor způsobuje manifestní odpověď. 𝑋𝑖 = 𝜆𝑖 𝑓 + 𝜈𝑖 + 𝜀, var 𝜀 = 𝜃𝑖 ◦ 𝑓 – faktor, 𝜆𝑖 - faktorový náboj,𝜃𝑖 - reziduální rozptyl Ordinální CFA: latentní faktor způsobuje latentní odpověď (LR). 𝐿𝑅𝑖 = 𝜆𝑖 𝑓 + 𝑣𝑖 + 𝜀, var 𝜀 = 𝜃𝑖 𝐿𝑅𝑖 ≥ 𝜏𝑖 𝑘−1 ∧ 𝐿𝑅𝑖 < 𝜏𝑖𝑘 ⟹ 𝑋𝑖 = 𝑘, 𝜏𝑖0 = −∞ ◦ 𝜏𝑖𝑘 - k-tý práh položky i. Ordinální CFA je probitový Graded Response Model. ◦ S nepatrně odlišnou parametrizací. Charakteristická funkce testu Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/ca talog/book/968 Charakteristická funkce testu (TCF) Test Characteristic Function/Curve (TCF/TCC). Jde o prostý součet jednotlivých ICC: 𝑇𝐶𝐶 𝜃 = ෍ 𝑖=1 𝑛 𝐼𝐶𝐶𝑖 𝜃 = ෍ 𝑖=1 𝑛 𝑃𝑖 𝜃 = E 𝑇 𝜃 ◦ kde n je počet položek. Hodnota očekávaného pravého skóre E 𝑇 𝜃 u respondentů s určitou mírou latentního rysu 𝜃. ◦ Protože E 𝑋 = 𝑇, logicky platí E 𝑇 𝜃 = E 𝑋 𝜃 . ◦ Pro neznámou „pravou hodnotu“ 𝜃, nikoli její odhad መ𝜃. Charakteristická funkce testu (TCF) Charakteristická funkce testu (TCF) TCF lze využít při skórování testu. 1PL: TCC izomorfní, každému X odpovídá právě jedno θ. Toho se využívá při skórování (pro odhad postačuje HS). 𝑇𝐶𝐶 ෠𝜃 ↔ 𝑋. 2PL: vztah není jednoznačný; diskriminační parametr dává rozdílné váhy položkám. Záleží, které byly zodpovězeny správně: 𝑇𝐶𝐶 𝜃 → 𝑋; 𝑋 ↛ 𝑇𝐶𝐶( ෠𝜃). ◦ Každému HS odpovídá konečný počet odhadů latentních rysů podle konkrétních odpovědí. ◦ Z hrubého skóre lze na úroveň latentního rysu usuzovat jen se ztrátou reliability. ◦ Zpravidla se pro skórování používají přímo odpovědi na jednotlivé položky. Řada dalších využití, např.: ◦ Observed (total) score IRT equating. ◦ Differential test functioning (DTF). Srovnání TCC Raschova a 2PL modelu LSAT7 data v mirt balíčku (5 binárních položek) Srovnání TCC Raschova a 2PL modelu LSAT7 data v mirt balíčku (5 binárních položek) Chyba měření v IRT Informační funkce položky Informační funkce testu Chyba měření Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074 Chyba měření: Intuice Na šachovém turnaji se potkají Magnus Carlsen (nejlepší hráč všech dob) a já v pěti letech Magnus Carlsen (samozřejmě) vyhraje. Co jsme se dozvěděli o jeho schopnosti hrát šachy? Co jsme se dozvěděli o té mé? Chyba měření: Intuice Z dostupných informací víme, že se Carlsen musí pohybovat na pravém extrému škály šachové schopnosti. já vítězka okresního turnaje Šachový mistr Velmistr Nejlepší velmistři Magnus Carlsen https://osf.io/preprints/psyarxiv/un9qd Chyba měření: Intuice Z dostupných informací víme, že se Carlsen musí pohybovat na pravém extrému škály šachové schopnosti. Naše nejistota se tak týká jen toho, jestli je Carlsen opravdu nejlepší, nebo “jen” mezi nejlepšími. já vítězka okresního turnaje Šachový mistr Velmistr Nejlepší velmistři Magnus Carlsen Chyba měření: Intuice já vítězka okresního turnaje Šachový mistr Velmistr Nejlepší velmistři Magnus Carlsen Každého soupeře si můžeme představit jako položku s určitou obtížností. Je patrné, že nás nejvíc zajímají výsledky se soupeři podobné úrovně, tedy položky s obtížností nejblíže schopnosti posuzovaného člověka. Chyba měření: Intuice já vítězka okresního turnaje Šachový mistr Velmistr Nejlepší velmistři Magnus Carlsen Po turnaji, kde by Carlsen hrál se zbylými pěti nejlepšími šachisty, by se naše nejistota ohledně jeho pozice postupně zužovala. Výsledek každé partie tedy přináší informaci o odhadu schopnosti. Ale! Ne všechny partie jsou pro odhad zajímavé – jen ty, jejichž výsledek má možnost snížit naši nejistotu. Pojetí reliability a přesnosti měření v IRT IRT odděluje úvahu o: ◦ Chybě měření (a intervalech spolehlivosti odhadu). ◦ Tzv. informační funkce položky/testu. ◦ Teoreticky nezávislá na výzkumném souboru. ◦ Reliabilitě, celkové spolehlivosti testu. ◦ Výsledek interakce metody se vzorkem; fungování metody v dané populaci. ◦ Odhadnuté na základě parametrů vzorku a chyb měření lidí ve vzorku. V IRT je tedy odhad SE používán pro odhad reliability. ◦ V CTT spíše naopak (ale srov. GT). Informační funkce položky (IIF) Item Information Function/Curve (IIF/IIC) Informační funkce položky 𝐼𝑖 𝜃 je funkcí jednotlivých parametrů modelu. ◦ Pro každou úroveň schopnosti 𝜃 jiná. Binární položky: 𝐼𝑖 𝜃 = 𝑃𝑖 ′ 𝜃 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ 𝑃𝑖 𝜃 = Charakteristická funkce položky ◦ 𝑃𝑖 ′ 𝜃 = první derivace této funkce. ◦ 1 − 𝑃𝑖 𝜃 = pravděpodobnost jiné než správné odpovědi. ◦ Pozn.: 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 = var 𝑃𝑖 𝜃 Informační funkce položky (IIF) 1PL MODEL (RASCHŮV) Pro 1PL model platí 𝑃𝑖 ′ 𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ a lze tedy zjednodušit: 𝐼𝑖 𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ V Raschově binárním modelu mají všechny položky stejný průběh funkce (diskriminační parametr), liší se jen umístěním maxima. ◦ Maximum je v bodě obtížnosti pol. (𝑏𝑖). ◦ Maximum funkce je vždy 0,5 ∙ 0,5 = 0,25. 2PL, 3PL MODELY Pro 2PL model platí 𝑃𝑖 ′ 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ a lze tedy zjednodušit: 𝐼𝑖 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 Informační funkce 3PL modelu je: 𝐼𝑖 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 − 𝑐𝑖 2 1 − 𝑐𝑖 2 1 − 𝑃𝑖 𝜃 𝑃𝑖 𝜃 ◦ fixováním 𝑐𝑖 = 0, resp. 𝑎𝑖 = 1 lze dosáhnout 2PL, resp. 1PL IIF. ◦ U 3PL není maximum v bodě obtížnosti. Informační funkce položky Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=2,5; b=-2; c=0; d=1 https://itemanalysis.com/irt-illustrator/ Informační funkce položky Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=1; b=0; c=0,5; d=1 https://itemanalysis.com/irt-illustrator/ (Pozor, osa y má odlišné měřítko od předchozího snímku.) Informační funkce položky Celková informační funkce položky (plocha pod křivkou) závisí na: ◦ Diskriminačním parametru (+). ◦ Parametru pseudouhádnutelnosti (-). Velikost informace položky se liší pro jednotlivé respondenty podle jejich schopnosti θ a závisí dále na: ◦ Blízkosti parametru obtížnosti a latentního rysu respondenta. ◦ Položka přináší nejvíce informace, když je ICC nejstrmější, a tedy pravděpodobnost správné odpovědi 𝜃 = 𝑏𝑖 (1PL, 2PL). ◦ Toho se využívá při počítačově adaptivním testování (CAT). Informační funkce testu (TIF) a chyba měření Informační funkce testu 𝐼 𝜃 je součtem informačních funkcí jednotlivých položek: 𝐼 𝜃 = ෍ 𝑖=1 𝑛 𝐼𝑖 𝜃 ◦ (Analogie k CTF.) Lze ji chápat jako relativní nepřítomnost chybového rozptylu, a proto se chyba měření 𝑆𝐸 liší podle odhadu úrovně lat. rysu ෠𝜃: 𝑆𝐸 ෠𝜃 = 1 𝐼 𝜃 ◦ (tedy čím vyšší informační funkce, tím přesnější měření/menší chyba měření) Interval spolehlivosti potom získáme jednoduše např. jako: 𝐶𝐼95% ෠𝜃 = ෠𝜃 ± 𝑧97,5% ∙ 𝑆𝐸෡𝜃 ◦ (Reálně se ale často používají různé pokročilejší techniky). Charakteristická funkce testuCharakteristická funkce položek Charakteristická funkce testuCharakteristická funkce položek Informační funkce testuInformační funkce položek Informační funkce testu a chyba měření Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968 Reliabilita v IRT Stejná definice reliability jako v CTT: 𝑟𝑥𝑥´ = 𝜎 𝑇 2 𝜎 𝑋 2 = 𝜎 𝑇 2 𝜎 𝑇 2+𝜎 𝑒 2 = 𝜎 𝑋 2 −𝜎 𝑒 2 𝜎 𝑋 2 = 1 − 𝜎 𝑒 2 𝜎 𝑋 2 ◦ Interpretace je stejná, jako v CTT. Odhad reliability: ◦ Do vzorce výše dosadíme za 𝜎 𝑋 pozorovanou SD odhadů latentních rysů. ◦ A 𝜎𝑒 = 𝑅𝑀𝑆𝐸 = σ 𝑝=1 𝑁 𝑆𝐸 𝑝 2 𝑁 , kde SEp je standardní chyba každého z N respondentů, a RMSE je tzv. root mean-square error (odmocnina průměrného chybového rozptylu). Takže: 𝑟𝑥𝑥´ = 1 − 𝑅𝑀𝑆𝐸2 𝜎 𝑋 2 = 1 − σ 𝑝=1 𝑁 𝑆𝐸 𝑝 2 𝑁𝜎 𝑋 2 Komplikace: Záleží na estimátoru. ◦ CML, MML a resp. EAP, MAP odhady pracují s odhadem latentního rysu (regrese k průměru) a tedy je odhadován nikoliv 𝜎 𝑋 2 , ale přímo 𝜎 𝑇 2 . A tedy: 𝑟𝑥𝑥´ = 𝜎 𝑇 2 𝜎 𝑇 2+𝑅𝑀𝑆𝐸2 Reliabilita v IRT Interpretace: poněkud komplikovanější než v CTT. V zásadě: reliabilita jako vysvětlený rozptyl. ◦ Podíl rozptylu odhadů faktorových skórů, který lze vysvětlit latentním rysem. Interpretace jako korelace problematická. ◦ Jen přibližně. ◦ Heteroskedascidita chyb odhadu. Lokální reliabilita Pro reliabilitu měření konkrétního respondenta nebo konkrétní skupiny dosadíme za 𝜎𝑒 přímo SE daného odhadu či RMSE spočítaného pro konkrétní skupinu (Daniel, 1999): tzv. „lokální reliabilita“. ◦ Reliabilita testu, „pokud by fungoval všude stejně, jako pro dané respondenty“. ◦ Umožňuje zacílit výběr položek pro určitý testový záměr. ◦ Není reliabilitou v pravém slova smyslu (tj. „statisticky“), ale pro praktické použití je velmi užitečná. Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968 IRT škálování IRT skóry IRT škály Cígler, H. (2018). Měření matematických schopností. Brno: Masarykova univerzita. Kde je (sakra) to celkové skóre? Problém zpětné inference (epistemologie). ◦ Model: Latentní rys způsobuje odpovědi na položky. ◦ Praxe: Z odpovědí na položky usuzujeme na míru rysu. ◦ Známe-li parametry (obtížnost...) položek, můžeme odhadnout nejpravděpodobnější úroveň latentního rysu, pro kterou bychom právě takové odpovědi pozorovali. Při výzkumu (např. standardizace metody): ◦ Odhadujeme parametry položek i osob naráz (ale...). ◦ Parametry položek uschováme pro budoucí použití, parametry osob se použijí pro tvorbu norem (IQ, T-skóry, percentily...) Při praktickém použití již standardizované metody: ◦ Z dopředu „nakalibrovaných“ položek usuzujeme na míru rysu, kterou pak převedeme na standardní skóry. Logitový skór Výstupem IRT (Raschova modelu, 2PL+ to může být komplikovanější) je skór v logitech. ◦ Analogie hrubého skóre v CTT. Interpretace: 𝑙𝑜𝑔𝑖𝑡 = ln 𝑃 𝜃 1 − 𝑃 𝜃 Kde 𝑃 𝜃 je typicky podíl položek, které respondent zvládne splnit správně. ◦ Platí jen přibližně! Logity převádějí pravděpodobnost (resp. percentil) na intervalovou proměnnou. 𝜽 − 𝒃𝒊 P -5 0,7% -4,5 1,1% -4 1,8% -3,5 2,9% -3 4,7% -2,5 7,6% -2 11,9% -1,5 18,2% -1 26,9% -0,5 37,8% 0 50,0% 0,5 62,2% 1 73,1% 1,5 81,8% 2 88,1% 2,5 92,4% 3 95,3% 3,5 97,1% 4 98,2% 4,5 98,9% 5 99,3% IRT škálování Samotný skór v logitech se pro praktické použití dále standardizuje. ◦ Intervalová škála rysu napříč všemi skupinami respondentů. ◦ Z ní IQ, T-skóry apod. pro daný ročník/věk/pohlaví atd. Kromě toho specifické (typicky Raschovské) skóry: ◦ W-skóry: Vhodné pro sledování růstu či vývoje, nezávisí na vzorku. ◦ W 500 ve věku 10;0 (příp. na začátku 5. ročníku) ◦ Vzdálenost 𝑏 − 𝜃 = 10𝑊 odpovídá změně pravděpodobnosti správné odpovědi z 50 % na 75 % (resp. 25 %). ◦ Lze predikovat úspěch v položkách/subtestech. ◦ RPI (Relative Proficiency Index): X/90, závisí na vzorku. ◦ Index relativní výkonnosti. Jaká je pravděpodobnost X správné odpovědi na položky, které lidé ze stejné normalizační skupiny odpovídají s 90% pravděpodobností správně? (Pro jiné základy zlomku kalkulačka zde.) Jaffe, L. E. (2009). Development, interpretation, and application of the W score and the relative proficiency index (Woodcock-Johnson III Assessment Service Bulletin No. 11). Rolling Meadows, IL: Riverside Publishing. 𝑊 = 10 ln 3 𝜃 − ҧ𝜃10 + 500 𝑊 = 9,1 𝜃 − ҧ𝜃10 + 500 • kde ҧ𝜃10 = průměrný skór 10letých • W-skóre má 9,1krát užší měřítko než logit. IRT škálování Klíčová výhoda IRT škálování: Odhad latentního rysu není závislý na použitých položkách. ◦ V CTT je naopak pravý skór „operacionalizován“ položkami. ◦ Chybějící data nejsou problém Toho využívají IRT metody, např.: ◦ Subtesty dělené podle věku, ale stále srovnatelné pomocí W-skóru. ◦ Různé „startovací položky“. ◦ Pravidla ukončení. Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Standardizace BACH: Testy školních dovedností: Obecné pokyny. Verze dokumentu 1.02. Masarykova univerzita a Propsyco. Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Testy školních dovedností (BACH): Matematika. Masarykova univerzita a Propsyco. IRT škálování Příklad z měření fluidní inteligence: ◦ Dítěti v 5 letech jsme naměřili IQ 100. ◦ Při retestu v 8 letech má IQ 85. Inteligence dítěte se: ... ? ◦ a) zvýšila ◦ b) nezměnila ◦ c) snížila ◦ d) nelze říci ◦ e) nechci odpovídat http://mindsbasis.blogspot.cz/2016/03/rasch-measure-of-intelligence-age-2-25.html Vývoj indexů ve WJ-IV v závislosti na věku. Raschův model umožňuje srovnávání vývoje průměrné úrovně rysů v čase. Ve vícePL IRT modelech problematické (nestejná „škála“). McGrew, K. S., LaForte, E. M., & Schrank, F. A. (2014). Technical Manual. Woodcock Johnson IV. Rolling Meadows, IL: Riverside. Krátký inteligenční test (KIT) Srovnání vývojových křivek použito jako důkaz konstruktové validity. Cígler, H. (2018). Měření matematických schopností. Brno: Masarykova univerzita. LEITER-3 (Leiter International Performance Scale) položky jednotlivé subtesty W-škála věkové ekvivalenty Estimátor IRT skóre Více různých estimátorů s výrazně odlišným významem. Maximum likelihood (ML), resp. Weighted mean likelihood (WML). ◦ Typicky Raschovské modely, nezávislé na populační distribuci. ◦ Jaká úroveň latentního rysu nejvíce odpovídá pozorovanému odpověďovému vzorci? ◦ Nezávislé na vzorku, ale náchylné na extrémní data. Expected a-posteriori (EAP), Maximum a-posteriori (MAP). ◦ Bayesovský odhad, průměr (EAP) nebo modus (MAP) posteriorní distribuce. ◦ Bere v potaz apriorní populační distribuci a kombinuje ji s věrohodností dat. ◦ Více centrální, analogie odhadu pravého skóre v CTT. ◦ Zásadně závislé na vzorku, extrémní data nejsou problém. Plauzibilní hodnoty (typicky za využití EAP). Přehled různých typů skórů: Opakování Hrubé skóry (CTT součtové skóry, IRT odhady) – nelze samy o sobě interpretovat. Odvozené skóry (percentily, IQ a další standardní skóry) poskytují normativní srovnání s referenční skupinou. Jsou závislé na vlastnostech škály a vzorku (M, SD). Ipsativní skóry poskytují intraindividuální srovnání odvozených skórů (diagnostika profilu atp.). ◦ Statisticky, klinicky významný rozdíl... W-skóry zasazují výkon člověk na škálu nezávislou na věku a populaci společnou pro typ testů. ◦ Do jisté míry nezávislou na počtu a konkrétním znění položek. RPI index poskytuje měřítko pro srovnání rozdílu výkonu probanda a referenční skupiny na snadno představitelné škále. Závislý na průměru (M), ale nikoli na variabilitě (SD). ◦ Rozdíl 30 IQ v pěti a dvaceti letech znamená velmi odlišný rozdíl v reálném výkonu, protože SD5 > SD20. Věkové a ročníkové ekvivalenty zasazují respondenta na vývojovou škálu. Zóna nejbližšího vývoje. Shoda modelu s daty Na úrovni položky. Na úrovni respondenta. Pravděpodobnost konkrétní odpovědi. Lokální závislost položek. Na úrovni modelu. Shoda modelu s daty NA ÚROVNI CELÉHO MODELU Odpovídají pozorovaná data IRT modelu? Obdobný přístup jako v konfirmační faktorové analýze ◦ χ2, TLI, CFI, RMSEA... ◦ Na hrubých datech zkreslené velkým počtem d.f., proto reprodukované bivariační matice a „limited information approach“ s využitím M2 statistiky (Maydeu-Olivares a Joe, 2006; Cai a Hansen, 2013) Umožňuje srovnání modelů navzájem ◦ 1PL vs. 2PL vs. 3PL... (nejen pomocí LRT). IRT lze v tomto ohledu použít namísto běžné EFA/CFA NA ÚROVNI POLOŽKY/RESPONDENTA Na kolik dobře odpovídají pozorované odpovědi 1 respondenta nebo odpovědi na 1 položku zvolenému IRT modelu? Celá řada indexů. ◦ Person fit: identifikace aberantních odpovědí. ◦ Např. pro účely purifikace dat při standardizaci. ◦ Item fit: doplňková informace o kvalitě položky (vedle parametrů modelu) ◦ Testy lokální nezávislosti (analogie reziduálních korelací a modifikačních indexů v FA). Shoda na úrovni respondenta/položky Na rozdíl od CFA lze uvažovat o shodě modelu s daty na úrovni položky/respondenta. ◦ „Odpovídá univariační frekvenční tabulka pozorovaných odpovědí predikovaným odpovědím?“ Využití shody položky s daty: ◦ Vyřazování nefungujících položek, kontrola položek při equatingu, MG IRT a podobně. ◦ Úprava IRT modelu (ICC) pro konkrétní položku. Využití shody respondenta s daty ◦ Identifikace aberantního odpovídání. ◦ Vyřazení respondentů odpovídajících nahodile při standardizačních studiích. Občas se využívá i identifikace konkrétní nepravděpodobné odpovědi. ◦ WJ-IV COG: jsou vyřazeny odpovědi podle tzv. pravidla 5σ (p = 0,00000057). ◦ Například respondent odpoví chybně z důvodů nesouvisejících s měřeným rysem. Shoda položky s daty (item fit) https://philchalmers.github.io/mirt/html/itemfit.html Lokální závislost položek Explorace, zda dvě položky nesouvisí silněji či slaběji, než by odpovídalo modelu. ◦ „Odpovídá bivariační frekvenční tabulka dvou položek tomu, co predikuje model?“ Lze identifikovat prostřednictvím chí-kvadrát testu a odvozených metod. Analogie k reziduální kovarianční matici, případně modifikačním indexům (M.I.) v CFA, nicméně výrazně výpočetně náročnější. ◦ Reziduální kovariance jsou přímo spočítané v rámci modelu. ◦ M.I. lze získat jednoduchými maticovými operacemi, zde je potřeba počítat pro každý pár zvlášť. Velikost efektu (např. Cramerovo V) vs. signifikance... Shoda celého modelu s daty Založen na chí-kvadrát testu stejně jako v CFA. ◦ CFI, TLI, RMSEA, SRMSR, AIC, BIC, saBIC a další. Full-information statistiky: χ2, G2. ◦ Založené na diskrepanční likelihood funkci (G2), resp. diskrepanci pozorované a modelem predikované matici odpovědí (χ2). ◦ Jinými slovy: diskrepance multivariační frekvenční tabulky všech položek. ◦ Jaké jsou předpoklady χ2? Jsou dodrženy? Proto limited-information statistiky: M2, M2 *, C2. ◦ M2, M2 * – univariační a bivariačí frekvence, binární (M2) a polytomické (M2 *) položky. ◦ C2 – varianta pro kratší testy s delší odpověďovou škálou, pouze bivariační frekvenční tabulky. Interpretace indexů CFI, TLI, RMSEA a dalších založených na M2, M2 *, C2 analogická indexům v CFA. Vybrané aplikace IRT: Počítačové adaptivní testování (CAT) Equating, linking Typická využití IRT Běžné ověření (konfirmační IRT) a explorace (explorační IRT) faktorové struktury. ◦ Test pak může být skórován klidně s využitím CTT. IRT jako nástroj pro škálování. ◦ Zajímají nás právě IRT odhady latentního rysu. IRT jako výzkumný nástroj (explanační modely). IRT jako model měření. DIF analýza a MG IRT (viz přednáška o férovosti). Další specifická využití: ◦ Počítačové adaptivní testování (CAT) ◦ Vyvažování paralelních forem testu (linking, equating) - souvisí se škálováním. Počítačové adaptivní testování Computerized Adaptive Testing (CAT) 1. myšlenka: Nemá smysl administrovat respondentovi takové položky, které nezpřesní odhad jeho latentního rysu. ◦ Jsou pro něj příliš jednoduché (téměř jistě je odpoví správně) ◦ Případně příliš těžké (téměř jistě odpoví chybně). ◦ Takové položky nesou příliš málo informace (nízká hodnota informační funkce). 2. myšlenka: IRT nevadí chybějící data. Pracuje s dílčími položkami, nikoliv celým testem. Použití: TOEFL, GRE, v ČR A3DW či ATAVT od Schufrieda, Invenio od INPSY (in progress ☺). CAT: Ilustrace Máme respondentku s 𝜃 = ? a na výběr z následujících položek (z Raschova modelu): Kterou položku administrujete jako první? b -0.05 1.5 -1 -2 1 0.5 CAT: Ilustrace Máme respondentku s odhadnutou schopností 𝜃 = 1.4 a na výběr z následujících položek (z Raschova modelu): Kterou položku administrujete jako další? b -0.05 1.5 -1 -2 1 0.5 CAT: Ilustrace Máme respondentku s odhadnutou schopností 𝜃 = 1.4 a na výběr z následujících položek (z 2PL modelu): Kterou položku administrujete jako další? b a -0.05 0.5 1.5 0.3 -1 0.1 -2 1 1 1.5 0.5 1.2 Počítačové adaptivní testování: Postup 1. Administruji úvodní set položek a odhadnu úroveň latentního rysu. 2. Vyberu a administruji položku, která má pro danou úroveň rysu maximální odpověďovou funkci. ◦ Tedy (u 1PL), jejíž obtížnost je nejblíže úrovni odhadnuté schopnosti (P 𝜃 = 0,5). ◦ Případně nepatrně lehčí (typicky 0,5 < P 𝜃 < 0,7), abych respondenta motivoval. ◦ Často ještě randomizace, aby se neopakovaly stále tytéž položky (s největším a-parametrem). 3. Odhadnu znovu rys. 4. Opakuji kroky 2 a 3, dokud nedosáhnu pravidla ukončení. ◦ Vyčerpám všechny položky nebo cílového počtu položek/času administrace. ◦ Standardní chyba odhadu se sníží pod stanovenou mez. ◦ Apod. Počítačové adaptivní testování: Výhody Efektivnější testování. ◦ Zkrácení testu při zachování reliability / zvýšení reliability při zachování délky. Větší množství položek, každý má trochu jiné položky. ◦ Redukce možnosti opisovat. ◦ Snížení rizika a hlavně důsledků případného úniku položek. ◦ Respondent nemusí odpovídat na neadekvátní položky (příjemnější testování). Lze využít i při individuální administraci. ◦ Např. s využitím administrace na tabletu. CAT příklad CAT příklad CAT příklad CAT příklad CAT příklad CAT příklad Celý test: rxx‘ = 0,895 ◦ Celkem 58 položek, čas M = 6,6 min. Zkrácený test: rxx‘ = 0,830 ◦ Průměrně 15,7 položek, čas M = 2,0 min. Časová úspora: 70 % při nepatrném snížení reliability. IRT skóry z celého a adaptivního testu se neliší. ◦ r = 0,96, χ2(df = 308) = 82,8, p = 1,00, pK-S = 0,91. ◦ Jen výjimečně skoková změna odhadu výkonu. CAT příklad Test equating (vyvažování testů) Vyvážení obtížnosti jednotlivých forem testu. ◦ V high stakes testech jednorázové vyvážení – sjednocení obtížností a srovnání probandů napříč formami testu. ◦ V psychologických metodách vyvážení skóru paralelních forem a vyvinutí rovnocenných nástrojů. ◦ Linking (prosté srovnání měřítek) vs. equating (zajištění stejné škály). Předpoklad: Obě formy měří stejný konstrukt (otázka validity). GRE, SAT: od konce 80./začátku 90. let je (v USA) IRT vyvažování high-stakes testů normou. Typické kroky: volba designu, sběr dat, samotná transformace. Test equating (vyvažování testů) Tři tradiční způsoby založené na pozorovaném skóre: ◦ Vyvažování na základě průměru (M) – testy musí mít stejné rozptyly, data musí být normálně rozdělená. 𝑥2 = 𝑥1 + 𝑋2 − 𝑋1 ◦ Lineární vyvažování (M, SD) – rozptyly se mohou lišit, data musí být normální. 𝑥2 = ത𝑋2 + 𝜎2 𝜎1 𝑥1 − ത𝑋1 (transformace přes z-skór) ◦ Equipercentilové vyvažování – varianty jsou upraveny tak, aby tentýž skór měl v obou variantách stejný percentil. Výsledkem je stejné rozdělení dat, je silně závislé na vzorku (použitelné jen u velkých souborů). ◦ Používá se i pro standardizaci nenormálních skórů na normální. ◦ Percentilové vyvažování není vyvažování, percentil z principu ztrácí část informace. Žádné zvláštní požadavky na data. IRT vyvažování bylo prvními hromadnými aplikacemi IRT do praxe. IRT equating: Princip IRT používá „full-information“ estimátor. ◦ Pokud chybí data náhodně (MAR), odhady parametrů položek nejsou ovlivněny. Pokud jsou parametry položek „na stejné škále“ (jsou vyvážené) a položky jsou lokálně nezávislé, latentní rys lze odhadnout pomocí jakýchkoli položek. Různé sety položek jsou vyváženy s pomocí společných prvků. ◦ Anchor items – několik položek administrovaných ve více setech. ◦ Anchor tests – celé soubory společných položek. ◦ Anchor persons – osoby, které absolvují oba test (za předpokladu stále shodné úrovně rysu). IRT equating: Sběr dat Celá řada různých designů. Designy s jednou výzkumnou skupinou: single-group design. ◦ Každá osoba absolvuje oba testy (counterbalancing = střídání pořadí). ◦ Případně část respondentů absolvuje oba testy (common-person design). Designy s náhodnými skupinami: random-group design, random-equivalent-group. ◦ Respondenty náhodně přiřadíme do výzkumných skupin. Předpokládáme, že jsou ekvivalentní. Designy se společnými položkami: ◦ Dvě nezávislé/nenáhodné skupiny, ale oba testy mají společné položky (tzv. „kotvu“ – anchor test), které slouží ke kalibraci. Největší spolehlivost a hlavní výhoda IRT. ◦ Ta může, ale nemusí být zahrnuta pro zjištění celkového skóru. ◦ Kotev může být více („planned missing data design“). Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti : anchor-item design : post-equating design post-equating : design Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti : anchor-item design post-equating : design : post-equating design Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti : anchor-item design : post-equating design post-equating : design Bolsinova, M., & Maris, G. (2016; suppl. mat) položky respondenti Design použitý v Caribbean Secondary Education Certificate (Stancel-Piątak, Cígler, Wild, 2018).