Přednáška 9–10: Teorie odpovědi na položku 19. a 26. 11. 2024 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler & Petr Palíšek | cigler@fss.muni.cz K vyřešení Časový limit u odpovědníku Termín zkoušky (2 ze 3): ◦Úterý 7. ledna od 16:00 ◦Středa 15. ledna od 16:00 ◦Středa 22. ledna od 14:00 ◦(Zkouškové období je 2. 1. – 14. 2. 2025.) Přednáška 9–10: Teorie odpovědi na položku 19. a 26. 11. 2024 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler & Petr Palíšek | cigler@fss.muni.cz Přímé a nepřímé měření: Extenzivní vs. intenzivní veličiny Extenzivní veličina: samotný atribut je aditivní. ◦3 cm + 5 cm = 8 cm. ◦Rozdělením celku vzniknou části. Součet míry jejich atributů je roven původnímu celku. ◦Umožňuje přímé měření srovnáním s etalonem, např. přiložením pravítka. ◦Délka, hmotnost, objem, elektrický odpor, Δt. Intenzivní veličina: atribut aditivní není, ale má kvantitativní povahu. ◦ 200 K + 50 K ≠ 250 K. ◦Každá část rozděleného celku bude mít stejnou míru atributu jako původní celek. ◦Nelze „přiložit“ měřicí nástroj; umožňuje pouze nepřímé měření. ◦Campbel (1940): kvalita, nikoli kvantita předmětu. ◦Hustota, teplota, tlak. Přímé a nepřímé měření: Koordinační funkce Počátky měřicích škál Kategorické či ordinální pozorování bylo nutné provázat s domnělým kvantitativním, spojitým, intervalovým rysem. Vizuální analogová škála (Hayes a Patterson, 1921). ◦Apriori předpokládaná lineární koordinační funkce neobstála. Metoda stejně se jevících intervalů (Thurstone, 1928). ◦Namísto volby vhodné koordinační funkce využil předběžnou kalibraci podnětového materiálu tak, aby mohl výslednou funkci považovat za lineární. ◦Pět různých modelů měření. ◦Law of Comparative Judgement – vychází z Weberova-Fechnerova zákona. Likertova škála (1932). Pragmatický přístup: ◦Metoda sigma: Kalibraci na základě předpokladu normálního rozložení ve výzkumném souboru. ◦„Jednodušší“ metoda: Z důvodu prakticky perfektní korelace začala být preferovaná. Počátky měřicích škál Guttmanova škála (1944, 1950). ◦Úzce vychází z Boggardovy škály sociální distance (1924). ◦Seřazená série jednodimenzionálních úkolů. ◦Za dodržení předpokladů je ale výsledek stále ordinální, nikoli intervalový. ◦Předpoklad: Zachování tranzitivity výroků napříč populací respondentů. Další postupy. ◦Např. Q-sort a Q-řazení a další. Accepts Immig. in Country Accepts Immig. in Town Accepts immig. in Neigborhood Accepts Immig. Next Door Accepts Immig. as Spouse Celkové skóre 0 0 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 2 1 1 1 0 0 3 1 1 1 1 0 4 1 1 1 1 1 5 Fundamentální („základní“) měření 1. Přímé měření: není odvozené z jiného měření, měří se přímo objekt... ◦Délka (metr), váha (rovnoramenné váhy)... ... nebo 2. nepřímé měření: je odvozené pomocí aditivních operací z naměřených hodnot. ◦Nepřímé měření: Objem, čas, teplota, barva či síla zemětřesení (Richterova stupnice). Podobné staršímu dělení na intensivní vs. extensivní veličiny, avšak vlastnost měření. ◦Změna preferovaného principu měření u některých veličin (skládací metr vs. laserový dálkoměr). Výsledkem je intervalová (příp. poměrová) škála s aditivní strukturou. ◦Aditivita: možnost převést funkci „+“ do „ד a základní aritmetické operace. Např. f(a + b) = f(a) + f(b). ◦Hodnoty tak lze „sčítat“ a „odčítat“. Důsledky: ◦Měření je „nezávislé“ na měřicím nástroji. ◦Měřicí škála stále stejná pro všechny úrovně naměřených hodnot. Připomenutí měření v rámci CTT Měření v rámci CTT je založeno na Stevensově operacionální definici. ◦Položková data jsou nominální nebo ordinální, málokdy intervalová. ◦Ze Stevensova pohledu je „měřením“ již odpověď na položku. ◦Numerická data ale neznamenají, že jde o „čísla“ v pravém slova smyslu. CTT s těmito ordinálními daty zachází, jako by byly číselné (součet položek...). ◦CTT pouze předpokládá, že standardizované skóry odvozené z hrubých skórů jsou intervalová data. Dodržení aditivity neřeší. ◦Pro výpočty používá míry centrální tendence a rozptylu (regrese, FA). ◦Zachází tedy se škálami, jako kdyby fundamentální byly. Kdy zejména to vadí? Při dodržení všech předpokladů CTT (normální rozdělení, ekvivalence položek atd.) se výsledek měření může měření fundamendálnímu shodou okolností blížit. Jde o „měření“? | Likertova škála Rosenber Self-Esteem Scale (první 4 položky) souhlasím spíše souhlasím spíše nesouhlasím nesouhlasím Jsem se sebou vcelku spokojený/spokojená. 3 2 1 0 Občas si myslím, že jsem k ničemu. 0 1 2 3 Cítím, že mám řadu dobrých vlastností. 3 2 1 0 Cítím, že toho není mnoho, na co bych u sebe mohl/mohla být hrdý/hrdá. 0 1 2 3 Celkový skór: suma počtu bodů z dílčích položek. Jde o „měření“? | Měření pozornosti Celkový skór 1: Počet prvků/řádků za jednotku času. Alternativní skór 1: Čas průchodu testem. Celkový skór 2: Počet chyb. https://www.researchgate.net/profile/Sebastian_Raehlmann/publication/331610754/figure/fig2/AS:73844 8516333570@1553071254698/Cutout-of-an-example-test-sequence-of-the-d2-R-test_W640.jpg Test pozornosti d2 Postupujte po řádcích a zaškrtněte všechna „d“ s 2 značkami nad nebo pod písmenem. https://commons.wikimedia.org/wiki/File:D2-Test.jpg Měření v rámci CTT Dotazník pro pacienty s anorexií (př. Bond & Fox, 2009): ◦1. Pravidelně zvracím, abych si udržel/a svou váhu. ◦2. Počítám gramy tuku na jídle, které jím. ◦3. Tvrdě cvičím, abych spálil/a kalorie. Odpovědi: nesouhlasím (1), spíše nesouhlasím (2), tak napůl (3), spíše souhlasím (4), souhlasím (5) ◦rxx' = 0,75; M = 3; SD = 3; ◦SE = 1,5, CI95% = 2,94. otázka respondent 1 respondent 2 1 spíše nesouhlasím (2) souhlasím (5) 2 spíše souhlasím (4) souhlasím (5) 3 souhlasím (5) nesouhlasím (1) hrubý skór: 11 11 ◦CTT: oba lidé mají z hlediska CTTstejný hrubý skór, a tedy i míru anorexie i intervaly spolehlivosti. ◦IRT: výsledky nejsou rovnocenné – jiný „person-fit“ (1PL), případně i chyby měření a skóry (2PL). (6,06–11,94) (6,06–11,94) Teorie odpovědi na položku (IRT) Item Response Theory (IRT). IRT je pokusem definovat koordinační funkci na úrovni jediné testové položky. ◦Tzv. charakteristická funkce položky (Item Characteristic Curve/Function, ICC/ICF). Existuje velké množství (desítky až stovky) různých IRT modelů. ◦Testy a dotazníky se liší svým formátem, proto vyžadují i jinou ICC. ◦Modely se dále liší svými předpoklady a variabilitou ICC podle použitých parametrů. Příklad: Nezávislost měření na nástroji TIM3–5: Test pro identifikaci matematicky nadaných dětí ◦Test je velmi obtížný, aby dobře měřil nadprůměr. ◦rxx‘ = 0,82; M = 8,51; SD = 6,72; min = 0; max = 33 ◦Předpoklad: Rozložení matematických schopností je v populaci normálně rozložené. ◦Závěr: Jaké budou naměřené skóry? Jak by vypadalo rozložení u testu, měřícího deficit (dyskalkulie...)? Měření v rámci CTT je vždy vztaženo k měřícímu nástroji. Měření v rámci IRT může být (více méně) na nástroji nezávislé. Kolmogorův-Smirnovův test (MC, p-value) ročník 3 (n = 243) 4 (n = 276) 5 (n = 278) hrubé skóre <0,001 0,001 0,001 W-skóre <0,001 0,065 0,061 Příklad: Nezávislost měření na nástroji Vývoj teorií odpovědi na položku 50. a 60. léta, další rozvoj v 80. letech (počítače). Nezávisle na sobě G. Rasch (matematik), F. M. Lord (psycholog, psychometrik) a P. F. Lazarsfeld (sociolog). Jde o stochastickou úpravu původně deterministického Guttmanova modelu. Tři hlavní stádia vývoje: ◦Předchůdci, do 50. let (Binet, Guttman, Thurstone...) ◦Raný vývoj, 50.–60. léta (Rasch, Novick, Lord...) ◦Rozvoj, 70.–80./90. léta (Bock, Samejima...) ◦Sjednocování a zobecňování (od 90. let) ◦ Paul Felix Lazarsfeld (1901–1976) Louis Guttman (1916–1987) Frederic M. Lord (1912–2000) van der Linden, W. J. (2016). Introduction. In W. J. van der Linden (ed.), Handbook of Item Response Theory, vol. 1: Models, pp. 1–10. Boca Raton: CRC Press. Extrémní příklad ... θ = 0 ? ◦E(xi) = 1 ... θ = 1 ? ◦E(xi) = 1,5 ... θ = -1 ? ◦E(xi) = 0,5 ... θ = 2 ? ◦E(xi) = 2 ... a konečně θ = 3 ? ◦E(xi) = 2,5 Jaký je vztah měřeného rysu a odpovědi na binární položku (správně/špatně)? Například vztah „fluidní inteligence“ a správné/špatné odpovědi na jednu úlohu v Ravenových progresivních matricích. Základy IRT: Charakteristická funkce položky (ICC) Výkon probanda v položce lze odhadnout pomocí množiny latentních rysů. ◦Schopnosti respondenta. ◦Parametry položek. Item Characteristic Curve (ICC): ◦Má (zpravidla) přibližně tvar kumulativního normálního rozdělení. ◦Popisuje vztah mezi schopností probandů a očekávaným výkonem v dané položce. ◦Pravděpodobnost správné odpovědi podle parametrů položky a probanda. ◦Tvar ale může být prakticky libovolný (různé modely). Srovnání modelů měření (Borsboom, 2005) KLASICKÁ TESTOVÁ TEORIE Měřený atribut: Pravý skór daného člověka v daném testu. Lineární vztah pravého a pozorovaného skóre. Homoskedasticita ◦Stejný chybový rozptyl pro všechny respondenty a všechny úrovně pravého skóre MODELY S LATENTNÍMI PROMĚNNÝMI Měřený atribut: Předpokládaný latentní rys. Faktorová analýza ◦Lineární vztah pozorované odpovědi a latentního rysu. ◦Homoskedasticita reziduí. Teorie odpovědi na položku ◦Nelineární (zpravidla logistický) vztah pozorované odpovědi a latentního rysu. FA jako specifický příklad IRT FA lze chápat jako specifický případ IRT. ◦Charakteristická funkce (vztah odpovědi a rysu) je lineární. ◦Mellenbergh, G.J. (2016). Models for Continuous Responses. In W.J. van der Linden (ed.), Handbook of Item Response Theory (vol. 1), 181-192. Chapman and Hall/CRC Press. FA „váží“ odpovědi. ◦V předchozím příkladu s anorexií by obě dívky měly odlišný odhad faktorového skóru. Někdy totiž lze lineární vztah předpokládat. ◦Např. hierarchická struktura v CHC, kdy „položkou“ je celý „subtest“. ◦Např. reakční časy (jsou-li dostatečně dlouhé a normálně rozložené – nebo logaritmizované). ◦Jiné dostatečně „jemné“ položky (jsou-li normálně rozložené). Nedodržení předpokladu linearity ale působí řadu obtíží. ◦Vícedimenzionalita, zejm. tzv. „difficulty factor“ v inteligenčních testech (McDonald, 1965; ten Berge, 1972). FA jako specifický příklad IRT Faktorová analýza je „limited information estimator“. ◦Pro odhad využívá kovarianční (korelační) matici – má tedy informaci pouze o bivariačních vztazích položek, nikoli originální data. ◦V případě ordinální FA bivariační frekvenční tabulky. ◦Chybějící informace o bivariačních vztazích je zásadní překážka. ◦Výhoda: lze snadno estimovat velké množství faktorů. IRT je „full information approach“. ◦Estimace probíhá přímo nad zdrojovými daty. ◦Chybějící bivariační informace není problém a nezkresluje odhady parametrů modelu. ◦Nevýhoda: Výpočetní náročnost exponenciálně roste s počtem faktorů, velký počet dimenzí je problém. Někdy se proto pro IRT používá termín „item-factor analysis“. Základní logistické IRT modely pro binární položky Raschův model, 1PL–4PL, charakteristická funkce položky. A teď mě vyrob tento obrázek. Neměň prosím slovní zadání příkazu: "An item characteristic function (as understood in item response theory) in a cubist style". Jednoparametrový Raschův model (1PL) Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál. Raschův model (jednoparametrový) Položka s obtížností bi = −2. Respondent se schopností θ = bi = -2 má 50 % pravděpodobnost správné odpovědi. Raschův model (jednoparametrový) Raschův model (jednoparametrový) Dvouparametrový model (2PL) ai je diskriminační parametr pol. i – naklonění ICC v bodě b. ◦čím je křivka „plošší“, tím méně rozlišuje Analogií ai je ve faktorové analýze faktorový náboj. Charakteristická křivka položky 2PL Urbánek, T., Denglerová, D., & Širůček, J. Psychometrika. Praha: Portál. Charakteristická křivka položky 2PL Tříparametrový model (3PL) Při prostém tipování je pravděpodobnost „náhodně správné“ odpovědi teoreticky 1/n, kde n je počet možných odpovědí. ◦Tedy n-1 distraktorů a právě 1 správné odpovědi. Tento předpoklad je příliš silný, proto je lepší pro každou položku tuto pravděpodobnost odhadnout zvlášť. ◦Některé distraktory mohou být evidentně chybné a respondent je vyloučí. ◦Ideálně by se takové distraktory samozřejmě neměly vyskytovat... chytáky nefungují. Charakteristické křivky položek 3PL c P(θ=0) P(θ=1) 0 0,5 0,73 0,25 0,63 0,80 0,5 0,75 0,87 Čtyřparametrový model (4PL) Charakteristická křivka 4PL modelu }Parametry: }a = 1 }b = 0 }c = 0,25 }d = 0,95 }Pravěpodobnost: }Pi(θ=0)=0,61 }Pi(θ=1)=0,77 } Srovnání 1PL–3PL modelů jednoparametrový model ◦pouze parametr obtížnosti položky bi dvouparametrový model ◦přidává diskriminační parametr ai tříparametrový model ◦přidává parametr pseudo-uhádnutelnosti ci ◦ ◦Ostatní symboly: ◦schopnost respondenta: θ ◦pravděpodobnost správné odp.: Pi ◦i – číslo položky ◦4PL: di = 1 → 3PL ◦3PL: ci = 0 → 2PL ◦2PL: ai = 1 (nebo ai = a) → 1PL On-line ilustrace http://fssvm6.fss.muni.cz/ICC/ https://shiny.cs.cas.cz/ShinyItemAnalysis/ Různé formáty parametrizace a zápisu Výhody intercept-slope parametrizace Probitové modely Předpoklady IRT Realismus: latentní rys existuje a jde o spojitou intervalovou proměnnou. ◦Zpravidla navíc i normálně rozloženou. ◦Ale... diskrétní IRT modely, LCA, estimátory pro nenormálně rozložený latentní rys. Lokální nezávislost položek. ◦Veškeré vzájemné vztahy položek lze vysvětlit působeným modelovaných latentních rysů. ◦Tzn. parciání vztah položek po kontrole úrovně latentního rysu je nulový. ◦V případě jediného rysu: jednodimenzionalita. Odpovědi lidí na položku lze modelovat prostřednictvím ICF. ◦Charakteristická funkce položky (ICF = Item Characteristic Function) ◦Někdy též Item Response Function (IRF), Item Characteristic Curve (ICC) atd. ◦Ale... Mokkenovo škálování a neparametrické IRT. Přednáška 9–10: Teorie odpovědi na položku 2. ČÁST PŘEDNÁŠKY Opakování první části přednášky Koordinační funkce, předchůdci IRT a počátky měřicích škál. Teorie odpovědi na položku (IRT): realistický model měření. Klíčové téma IRT: vztah latentního rysu a manifestních odpovědí na položky. Faktorová analýza jako specifický případ IRT. Charakteristická funkce položky (ICC). Různé IRT modely mají různé ICC: 1PL, 2PL, 3PL. Parametr obtížnosti, diskriminace, pseudouhádnutelnosti. Různé zápisy a parametrizace. Obsah druhé části přednášky Další IRT modely Charakteristická funkce testu. Odhad míry latentního rysu, IRT škálování, IRT skóry. Práce s chybou: Informační funkce položky, testu, chyba měření. Shoda modelu s daty. IRT modely pro polytomní data. Ordinální faktorová analýza (item-factor analysis). Klíčové oblasti využití IRT. ◦Počítačově adaptivní testování. ◦Vyvažování paralelních forem testu. A diagram of a number of lines Description automatically generated with medium confidence A diagram of a red line Description automatically generated Další IRT modely Graded Response Model Generalized Partial Credit Models Tutzův sekvenční model Bockův Nominal Response Model Ordinální faktorová analýza … Zadání: “Teor-e zobecnitelnost- je jednoduchá a –rozumitelná.” Odpověď 1: “Teorye zobecnitelnosti je jednoduchá a srozumitelná.” Odpověď 2: “Teorie zobecnitelnosti je jednoduchá a srozumitelná.” Zadání: “Teor-e zobecnitelnost- je jednoduchá a –rozumitelná.” Odpověď 1: “Teorye zobecnitelnosti je jednoduchá a srozumitelná.” Odpověď 2: “Teorie zobecnitelnosti je jednoduchá a srozumitelná.” Rádi bychom 2 hodnotili jako lepší než 1. Zadání: “Teor-e zobecnitelnost- je jednoduchá a –rozumitelná.” Odpověď 1: “Teorye zobecnitelnosti je jednoduchá a srozumitelná.” Odpověď 2: “Teorie zobecnitelnosti je jednoduchá a srozumitelná.” Rádi bychom 2 hodnotili jako lepší než 1. ◦Partial Credit Model (analogie 1PL) ◦Graded Response Model (analogie 2PL) Graded Response Model (GRM) Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074 Graded Response Model (GRM) (-3)2 = ? a) 5 b) 9 c) -9 d) 6 (-3)2 = ? a) 5 (strašná) b) 9 (správná) c) -9 (něco mezi) d) 6 (strašná) Co když chceme rozlišovat mezi špatnými a strašnými odpověďmi? (-3)2 = ? a) 5 (strašná) b) 9 (správná) c) -9 (něco mezi) d) 6 (strašná) Co když chceme rozlišovat mezi špatnými a strašnými odpověďmi? Nominal Response Model Nested Logit Model Multiple-Choice Model Nominal Response Model Figure 1. Example 2PL and Nominal Response Model Items Using the Distractor Categories of Multiple-Choice Items to Improve IRT Linking Nominal Response Model (NRM) Nominal Response Model (NRM) Polytomní IRT modely Určeny pro práci s položkami s více odpověďmi. ◦Např. Likertova škála 1-7, částečně správné odpovědi ve výkonovém testu nebo multiple-choice položky. ◦Na rozdíl od CTT mohou vést k doporučení zvýšit či snížit počet kategorií položek. ◦Zpravidla 1PL či 2PL. Modely pro nominální či ordinální kategorie. 3 hlavní kategorie polytomních modelů1: ◦difference models (GRM, MGRM) – výhradně ordinální kategorie ◦divide-by-totals (PCM, GPCM, NRM) ◦sekvenční modely (Tutzův sekvenční model) 1 Sijtsma, K., & Hemker, B. (2000). A Taxonomy of IRT Models for Ordering Persons and Items Using Simple Sum Scores. Journal of Educational and Behavioral Statistics, 25(4), 391-415. http://www.doi.org/10.2307/1165222 Polytomní modely (z rychlíku) Ordinální data ◦(Generalized) Partial Credit Model (GPCM, PCM) – původně určený pro výkonová data, kde se skóre položky sestává z dílčích samostatně skórovaných kategorií. ◦Graded Response Model (GRM) – původně určený pro dotazníky, kde respondent zaznamenává spojitou, kontinuální míru „souhlasu“ na ordinální škále. Nominální data ◦Nominal Response Model (NRM) – každá odpověďová kategorie je modelovaná zvlášť. ◦Multiple-choice Model (MCM) – dílčí úprava NRM vhodné pro MC data. “Můj pokoj je poměrně uklizen.” ANO / NE “Myslím, že jsem úzkostná asi tolik jako jiní lidé.” ANO / NE “Čas od času mne trápí myšlenky na budoucnost.” ANO / NE Jak by vypadala charakteristická funkce? “Můj pokoj je poměrně uklizen.” ANO / NE “Myslím, že jsem úzkostná asi tolik jako jiní lidé.” ANO / NE “Čas od času mne trápí myšlenky na budoucnost.” ANO / NE Jak by vypadala charakteristická funkce? Ideal-Point Model Ukázka ideal-point modelu https://image.slideserve.com/730096/example-ideal-point-irt-order-scale-l.jpg https://www.slideserve.com/content/applying-ideal-point-irt-models-to-score-single-stimulus-and-pai rwise-preference-personality-items IIF, ICF: Obecné vlastnosti Partial Credit Model (PCM) a RSM Příklad: PCM (5steps Likert) Příklad RSM vs. PCM RATING SCALE MODEL PARTIAL CREDIT MODEL GRM vs. PCM Výsledky obou modelů jsou velmi podobné. Přestože predikované pravděpodobnosti a výsledky jsou velmi podobné, logika je diametrálně odlišná. ◦PCM: Série navazujících kroků/znalostí nutných pro získání vyššího „skóre“. ◦Musím získat 1 bod, abych mohl získat 2 body; musím získat 2 body, abych mohl získat 3 body... ◦Pokud bych odpověděl správně možnost K, jaká je pravděpodobnost, že zodpovím správně i K+1? ◦Typicky výkonové testy (parciální kredit, dílčí míra znalosti). ◦GRM: latentní kontinuum je rozčleněné na dílčí binární 2PL modely. ◦Určí se pravděpodobnost překročení každého ze „stupňů“ separátně a ty se pak „složí“ dohromady ◦Jaká je pravděpodobnost, že odpovím K vs. K+1? Jaká, že odpovím K+1 vs. K+2? K+2 vs. K+3? ... ? ◦Typicky osobnostní dotazníky (překročila míra souhlasu míru nutnou pro skórování určitým způsobem)? Nominal Response Model (NRM) Multiple-choice models Divided-by-total modely obecně Hierarchie modelů Srovnání modelů G:\doc01752020151006113342_001.jpg Běžné modely: divided-by-total a graded modely. Embretson a Reise (2009) IRT model s normativním prvkem Typické využití IRT směřuje k dobrému popisu dat (odpověďových procesů). Data jsou “fixed”, ovlivnit můžeme jen podobu modelu. Co když ale chceme vytvořit ideální test? Jaké by měl vlastnosti? IRT model s normativním prvkem Typické využití IRT směřuje k dobrému popisu dat (odpověďových procesů). Data jsou “fixed”, ovlivnit můžeme jen podobu modelu. Co když ale chceme vytvořit ideální test? Jaké by měl vlastnosti? Součtový skór by byl dostatečnou statistikou pro odhad latentní schopnosti. Položky by byly stejně obtížné bez ohledu na testované osoby a ostatní položky v testu. Aditivita. Raschův model Raschův model https://youtu.be/FdtpgMVP1EI Ben Wright odvozuje Raschův model Introduction to the Rasch Model - Benjamin D. Wright, 1994 - Part 3 ... Raschův model ◦Z pohledu “raschisty” se přidáváním parametrů kazí pravítková podoba modelu. ◦ ◦Než měnit model, bude raději měnit data. ◦Lepší položky ◦Lepší teorie ◦Lepší administrace ◦Čištění respondentů ◦ ◦ ◦ ◦ A close-up of a text Description automatically generated https://www.researchgate.net/publication/40039735_The_Attack_of_the_Psychometricians RM: Spolehlivost položky (infit, outfit) Ukazatel, jak položka/respondent odpovídá Raschovu modelu. ◦Položky: Odpovídali respondenti na položku dle předpokladu? ◦Respondenti: Odpovídal respondent na položky dle předpokladu? ◦Je založená na průměru sumy čtverců standardizovaných reziduí probanda/položky s df=n-1. ◦Pozor: vysoká hodnota se neintuitivně označuje jako „underfit“, nízká „overfit“! Vysoká hodnota (underfit): respondent/i odpovídal/i více náhodně. ◦Méně „guttmanovská“ škála, než jsme předpokládali. Nízká hodnota (overfit): respondent/i odpovídal/i méně náhodně. ◦Více „guttmanovská“ škála, než jsme předpokládali. Příklad: ◦obtížnost položek: snadné ....... střední ........ těžké. ◦stochastická předpověď (průměrný fit): 111...1101100100...000. ◦deterministická odpověď (overfit): 111...1111100000...000. ◦nahodilá odpověď: (underfit): 101...1010101010...010. ◦špatný tip (vliv na outfit): 111...1101100100...001. ◦nepozornost (vliv na outfit): 011...1101100100...000. ◦náhodná znalost (vliv na infit): 111...1101111100...000. Jaká křivka by se zde hodila namísto RM? A) UNDERFIT BI=-2,24; INFIT 1,13 (T=1,8), OUTFIT 1,42 (T=2,7) B) OVERFIT BI=0,95; INFIT 0,74 (T=-2,0), OUTFIT 0,3 (T=-1,7) Srovnání Raschova a 1PL–3PL přístupu RASCHŮV MODEL (1PL) Spíše konfirmační princip (data musí odpovídat modelu). Pouze 1. parametr, a=1, zbytek je „šum“. ◦Všechny pol. diskriminují (teoreticky) stejně. Cílem je fundamentalita škály, invariance odhadu. Menší závislost odhadů na položkách/respondentech. Nižší počet parametrů → nižší počet respondentů. Vhodnější pro konstrukci diagnostických testů (SB-V, Leiter-3, v ČR pak WJ-IV, KIT a další) Možnost žádných předpokladů o rozložení latentního rysu (JML estimátor). IRT (1PL, 2PL, 3PL...) Spíše explorační princip (přizpůsobuje model datům). Počet parametrů, který nejlépe popíše data. ◦Diskriminace položek se může lišit. Důraz je kladen na výběr „nejlepšího“ modelu. Vyšší závislost odhadů na položkách/respondentech. Vyšší počet parametrů → vyšší počet respondentů. Vhodnější pro test-equating v high-stakes testech (SAT, GRE, SCIO, SK maturita) a adaptivní testování. Zpravidla předpoklad normálního rozdělení (MML, CML aj. estimátory). Ordinální faktorová analýza Ordinální faktorová analýza je založená na tetrachorických (binární položky), respektive polychorických korelacích (ordinální položky). Tetrachorická/polychorická korelace: ◦Existuje spojitá, intervalová, normálně rozložená latentní odpověď (LR, Latent Response). ◦Ta není přímo pozorovaná (je latentní). ◦Manifestuje se pouze jako ordinální kategorie. ◦Pokud LR překročí příslušný práh položky, pozorujeme vyšší kategorii. Tetra/poly korelace jsou odhadovány na základě bivariačních frekvenčních tabulek. Ordinální FA tedy faktoruje matici polychorických korelací. ◦Tradiční postup: Odhadne se polychorická matice a ta vložena do EFA. ◦Modernější postup: polychorická matice a parametry FA jsou odhadovány naráz pomocí DWLS/WLSMV estimátoru. Tetrachorická korelace (ρ = 0,6) Tetrachorická korelace (ρ = 0,6) Ordinální faktorová analýza García-Peréz, M.A. (2017); doporučuji pro mnoho dalších srovnání v různých situacích Srovnání modelů 2 Figure 5. Empirical response distributions for four items (a) and estimated option response functions under the nominal response model (NRM; b), the graded response model (GRM) without correction for zero counts (c) and with it (d), and the generalized partial credit model (GPCM; e). Note: Negative-valued curves in (c) reach an ordinate of −1 but are drawn with a compressed scale. Sekvenční modely originální položka rekódovanáP1 rekódovanáP2 0 0 NA 1 1 0 2 1 1 Ordinální faktorová analýza Ordinální faktorová analýza je založená na tetrachorických (binární položky), respektive polychorických korelacích (ordinální položky). Tetrachorická/polychorická korelace: ◦Existuje spojitá, intervalová, normálně rozložená latentní odpověď (LR, Latent Response). ◦Ta není přímo pozorovaná (je latentní). ◦Manifestuje se pouze jako ordinální kategorie. ◦Pokud LR překročí příslušný práh položky, pozorujeme vyšší kategorii. Tetra/poly korelace jsou odhadovány na základě bivariačních frekvenčních tabulek. Tetrachorické korelace nejsou robustní vůči zešikmení. ◦V případě chybějících bivariačních četností není korelace identifikovaná ◦Imputuje se arbitrární konstanta, tzv. korekce na kontinuitu. ◦Rozdílné zešikmení položek, zejm. u tetrachorických korelací (vede k výraznému nadhodnocení síly vztahu). Parametry ordinální faktorové analýzy Parametry ordinální faktorové analýzy Charakteristická funkce testu Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968 Charakteristická funkce testu (TCF) Charakteristická funkce testu (TCF) Charakteristická funkce testu (TCF) Srovnání TCC Raschova a 2PL modelu LSAT7 data v mirt balíčku (5 binárních položek) Srovnání TCC Raschova a 2PL modelu LSAT7 data v mirt balíčku (5 binárních položek) Chyba měření v IRT Informační funkce položky Informační funkce testu Chyba měření Martinkova P., & Drabinova A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. The R Journal, 10(2), 503-515. doi: 10.32614/RJ-2018-074 Chyba měření: Intuice Na šachovém turnaji se potkají Magnus Carlsen (nejlepší hráč všech dob) a já v pěti letech Magnus Carlsen (samozřejmě) vyhraje. Co jsme se dozvěděli o jeho schopnosti hrát šachy? Co jsme se dozvěděli o té mé? Magnus Carlsen claims Hikaru is "improving" despite beating him during ... A child sitting on the floor next to a chess board Description automatically generated Chyba měření: Intuice Z dostupných informací víme, že se Carlsen musí pohybovat na pravém extrému škály šachové schopnosti. já vítězka okresního turnaje Šachový mistr Velmistr Nejlepší velmistři Magnus Carlsen https://osf.io/preprints/psyarxiv/un9qd Chyba měření: Intuice Z dostupných informací víme, že se Carlsen musí pohybovat na pravém extrému škály šachové schopnosti. Naše nejistota se tak týká jen toho, jestli je Carlsen opravdu nejlepší, nebo “jen” mezi nejlepšími. já vítězka okresního turnaje Šachový mistr Velmistr Nejlepší velmistři Magnus Carlsen Chyba měření: Intuice já vítězka okresního turnaje Šachový mistr Velmistr Nejlepší velmistři Magnus Carlsen Každého soupeře si můžeme představit jako položku s určitou obtížností. Je patrné, že nás nejvíc zajímají výsledky se soupeři podobné úrovně, tedy položky s obtížností nejblíže schopnosti posuzovaného člověka. Chyba měření: Intuice já vítězka okresního turnaje Šachový mistr Velmistr Nejlepší velmistři Magnus Carlsen Po turnaji, kde by Carlsen hrál se zbylými pěti nejlepšími šachisty, by se naše nejistota ohledně jeho pozice postupně zužovala. Výsledek každé partie tedy přináší informaci o odhadu schopnosti. Ale! Ne všechny partie jsou pro odhad zajímavé – jen ty, jejichž výsledek má možnost snížit naši nejistotu. Pojetí reliability a přesnosti měření v IRT IRT odděluje úvahu o: ◦Chybě měření (a intervalech spolehlivosti odhadu). ◦Tzv. informační funkce položky/testu. ◦Teoreticky nezávislá na výzkumném souboru. ◦Reliabilitě, celkové spolehlivosti testu. ◦Výsledek interakce metody se vzorkem; fungování metody v dané populaci. ◦Odhadnuté na základě parametrů vzorku a chyb měření lidí ve vzorku. V IRT je tedy odhad SE používán pro odhad reliability. ◦V CTT spíše naopak (ale srov. GT). Odbočka: Informační teorie Množství informace nesené (nejen) diskrétní proměnnou souvisí s obtížností předpovědět daný jev. ◦Jinými slovy: Čím nižší souvislost má apriorní očekávání s pozorováním, tím více informace. ◦Př.: Pokud jev může nabývat hodnot 0/1, ale reálně nabývá vždy 1, pozorovaná odpověď nenese žádnou informaci, protože tu 1 očekáváme. Př.: Lidé odpovídají ano/ne na různé otázky. ◦Ignác vždy odpoví „ano“ nehledě na otázku. ◦Ignácie se zamyslí a odpoví podle otázky. ◦Odpovědi Ignácie nesou více informace, než odpovědi Ignáce. https://upload.wikimedia.org/wikipedia/commons/thumb/2/22/Binary_entropy_plot.svg/1024px-Binary_ent ropy_plot.svg.png Informace Bernoulliho pokusu podle pravděpodobnosti úspěchu. Informační funkce položky (IIF) Informační funkce položky (IIF) 1PL MODEL (RASCHŮV) 2PL, 3PL MODELY Informační funkce položky Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=2,5; b=-2; c=0; d=1 https://itemanalysis.com/irt-illustrator/ Informační funkce položky Vlevo: a=1; b=0; c=0; d=1 | Vpravo: a=1; b=0; c=0,5; d=1 https://itemanalysis.com/irt-illustrator/ (Pozor, osa y má odlišné měřítko od předchozího snímku.) Informační funkce položky Informační funkce testu (TIF) a chyba měření Charakteristická funkce testu Charakteristická funkce položek Charakteristická funkce testu Charakteristická funkce položek Informační funkce testu Informační funkce položek Informační funkce testu a chyba měření Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968 Reliabilita v IRT Reliabilita v IRT Interpretace: poněkud komplikovanější než v CTT. V zásadě: reliabilita jako vysvětlený rozptyl. ◦Podíl rozptylu odhadů faktorových skórů, který lze vysvětlit latentním rysem. Interpretace jako korelace problematická. ◦Jen přibližně. ◦Heteroskedascidita chyb odhadu. Lokální reliabilita Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. Retrieved from https://munispace.muni.cz/index.php/munispace/catalog/book/968 Odhad reliability Lze spočítat pro osoby i pro položky. Reliabilita osob záleží na: ◦Rozptylu probandů. ◦Délce testu. ◦Počtu kategorií každé položky. ◦„Sample-item targeting“ – jsou položky vhodně těžké pro daný vzorek? ◦Je naopak nezávislá na počtu osob. ◦Kritéria stejná jako v CTT. Reliabilita položek závisí na: ◦Rozptylu obtížnosti položek. ◦Počtu probandů. ◦„Item-sample targeting“. ◦Je nezávislá na délce testu. ◦Odpověď na otázku „jak přesně jsme odhadli obtížnosti položek“? ◦Kritéria výrazně přísnější... u běžných testů chceme alespoň 0,99. IRT škálování IRT skóry IRT škály Cígler, H. (2018). Měření matematických schopností. Brno: Masarykova univerzita. Kde je (sakra) to celkové skóre? Problém zpětné inference (epistemologie). ◦Model: Latentní rys způsobuje odpovědi na položky. ◦Praxe: Z odpovědí na položky usuzujeme na míru rysu. ◦Známe-li parametry (obtížnost...) položek, můžeme odhadnout nejpravděpodobnější úroveň latentního rysu, pro kterou bychom právě takové odpovědi pozorovali. Při výzkumu (např. standardizace metody): ◦Odhadujeme parametry položek i osob naráz (ale...). ◦Parametry položek uschováme pro budoucí použití, parametry osob se použijí pro tvorbu norem (IQ, T-skóry, percentily...) Při praktickém použití již standardizované metody: ◦Z dopředu „nakalibrovaných“ položek usuzujeme na míru rysu, kterou pak převedeme na standardní skóry. Logitový skór IRT škálování Jaffe, L. E. (2009). Development, interpretation, and application of the W score and the relative proficiency index (Woodcock-Johnson III Assessment Service Bulletin No. 11). Rolling Meadows, IL: Riverside Publishing. IRT škálování Klíčová výhoda IRT škálování: Odhad latentního rysu není závislý na použitých položkách. ◦V CTT je naopak pravý skór „operacionalizován“ položkami. ◦Chybějící data nejsou problém Toho využívají IRT metody, např.: ◦Subtesty dělené podle věku, ale stále srovnatelné pomocí W-skóru. ◦Různé „startovací položky“. ◦Pravidla ukončení. Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Standardizace BACH: Testy školních dovedností: Obecné pokyny. Verze dokumentu 1.02. Masarykova univerzita a Propsyco. Bednářová, J., Cígler, H., & Jabůrek, M. (2019). Testy školních dovedností (BACH): Matematika. Masarykova univerzita a Propsyco. IRT škálování Příklad z měření fluidní inteligence: ◦ ◦Dítěti v 5 letech jsme naměřili IQ 100. ◦Při retestu v 8 letech má IQ 85. Inteligence dítěte se: ... ? ◦a) zvýšila ◦b) nezměnila ◦c) snížila ◦d) nelze říci ◦e) nechci odpovídat http://2.bp.blogspot.com/-tXLt9eo5s6Q/VvlvcmScDkI/AAAAAAAAAMU/Vx12AxqJYcYiGwwNSxFp7jA9mbfqNLcDA/s16 00/rasch%2Bintelligence%2Bscore%2Bvs%2Bage%2Bremake%2B1.png http://mindsbasis.blogspot.cz/2016/03/rasch-measure-of-intelligence-age-2-25.html Vývoj indexů ve WJ-IV v závislosti na věku. Raschův model umožňuje srovnávání vývoje průměrné úrovně rysů v čase. Ve vícePL IRT modelech problematické (nestejná „škála“). } McGrew, K. S., LaForte, E. M., & Schrank, F. A. (2014). Technical Manual. Woodcock Johnson IV. Rolling Meadows, IL: Riverside. Krátký inteligenční test (KIT) Srovnání vývojových křivek použito jako důkaz konstruktové validity. Cígler, H. (2018). Měření matematických schopností. Brno: Masarykova univerzita. LEITER-3 (Leiter International Performance Scale) položky jednotlivé subtesty W-škála věkové ekvivalenty Estimátor IRT skóre Více různých estimátorů s výrazně odlišným významem. Maximum likelihood (ML), resp. Weighted mean likelihood (WML). ◦Typicky Raschovské modely, nezávislé na populační distribuci. ◦Jaká úroveň latentního rysu nejvíce odpovídá pozorovanému odpověďovému vzorci? ◦Nezávislé na vzorku, ale náchylné na extrémní data. Expected a-posteriori (EAP), Maximum a-posteriori (MAP). ◦Bayesovský odhad, průměr (EAP) nebo modus (MAP) posteriorní distribuce. ◦Bere v potaz apriorní populační distribuci a kombinuje ji s věrohodností dat. ◦Více centrální, analogie odhadu pravého skóre v CTT. ◦Zásadně závislé na vzorku, extrémní data nejsou problém. Plauzibilní hodnoty (typicky za využití EAP). Přehled různých typů skórů: Opakování Hrubé skóry (CTT součtové skóry, IRT odhady) – nelze samy o sobě interpretovat. Odvozené skóry (percentily, IQ a další standardní skóry) poskytují normativní srovnání s referenční skupinou. Jsou závislé na vlastnostech škály a vzorku (M, SD). Ipsativní skóry poskytují intraindividuální srovnání odvozených skórů (diagnostika profilu atp.). ◦Statisticky, klinicky významný rozdíl... W-skóry zasazují výkon člověk na škálu nezávislou na věku a populaci společnou pro typ testů. ◦Do jisté míry nezávislou na počtu a konkrétním znění položek. RPI index poskytuje měřítko pro srovnání rozdílu výkonu probanda a referenční skupiny na snadno představitelné škále. Závislý na průměru (M), ale nikoli na variabilitě (SD). ◦Rozdíl 30 IQ v pěti a dvaceti letech znamená velmi odlišný rozdíl v reálném výkonu, protože SD5 > SD20. Věkové a ročníkové ekvivalenty zasazují respondenta na vývojovou škálu. Zóna nejbližšího vývoje. Shoda modelu s daty Na úrovni položky. Na úrovni respondenta. Pravděpodobnost konkrétní odpovědi. Lokální závislost položek. Na úrovni modelu. Shoda modelu s daty NA ÚROVNI CELÉHO MODELU Odpovídají pozorovaná data IRT modelu? Obdobný přístup jako v konfirmační faktorové analýze ◦χ2, TLI, CFI, RMSEA... ◦Na hrubých datech zkreslené velkým počtem d.f., proto reprodukované bivariační matice a „limited information approach“ s využitím M2 statistiky (Maydeu-Olivares a Joe, 2006; Cai a Hansen, 2013) Umožňuje srovnání modelů navzájem ◦1PL vs. 2PL vs. 3PL... (nejen pomocí LRT). IRT lze v tomto ohledu použít namísto běžné EFA/CFA NA ÚROVNI POLOŽKY/RESPONDENTA Na kolik dobře odpovídají pozorované odpovědi 1 respondenta nebo odpovědi na 1 položku zvolenému IRT modelu? Celá řada indexů. ◦Person fit: identifikace aberantních odpovědí. ◦Např. pro účely purifikace dat při standardizaci. ◦Item fit: doplňková informace o kvalitě položky (vedle parametrů modelu) ◦Testy lokální nezávislosti (analogie reziduálních korelací a modifikačních indexů v FA). Shoda na úrovni respondenta/položky Na rozdíl od CFA lze uvažovat o shodě modelu s daty na úrovni položky/respondenta. ◦„Odpovídá univariační frekvenční tabulka pozorovaných odpovědí predikovaným odpovědím?“ Využití shody položky s daty: ◦Vyřazování nefungujících položek, kontrola položek při equatingu, MG IRT a podobně. ◦Úprava IRT modelu (ICC) pro konkrétní položku. Využití shody respondenta s daty ◦Identifikace aberantního odpovídání. ◦Vyřazení respondentů odpovídajících nahodile při standardizačních studiích. Občas se využívá i identifikace konkrétní nepravděpodobné odpovědi. ◦WJ-IV COG: jsou vyřazeny odpovědi podle tzv. pravidla 5σ (p = 0,00000057). ◦Například respondent odpoví chybně z důvodů nesouvisejících s měřeným rysem. Shoda položky s daty (item fit) Shoda položky s daty (item fit) https://philchalmers.github.io/mirt/html/itemfit.html Shoda respondentů s daty Tradičně tzv. Zh statistika. V Raschových modelech se používá infit a outfit stejně, jako u položek. Celkově to není příliš spolehlivé pro individuální diagnostiku. ◦Výhodnější je vyhledávání konkrétních aberantních odpovědí s malou pravděpodobností. Hlavní využití při standardizaci a čištění dat. Raschův model - infit (Příklad využití fitu a obtížnosti položek) nejlehčí položka velká chyba odhadu stochastická odpověď nejlepší respondent velká chyba odhadu stochastická odpověď mírně podprůměrný resp. malá chyba odhadu náhodná odpověď těžší položka malá chyba odhadu vysoká diskriminace Lokální závislost položek Explorace, zda dvě položky nesouvisí silněji či slaběji, než by odpovídalo modelu. ◦„Odpovídá bivariační frekvenční tabulka dvou položek tomu, co predikuje model?“ Lze identifikovat prostřednictvím chí-kvadrát testu a odvozených metod. Analogie k reziduální kovarianční matici, případně modifikačním indexům (M.I.) v CFA, nicméně výrazně výpočetně náročnější. ◦Reziduální kovariance jsou přímo spočítané v rámci modelu. ◦M.I. lze získat jednoduchými maticovými operacemi, zde je potřeba počítat pro každý pár zvlášť. Velikost efektu (např. Cramerovo V) vs. signifikance... Shoda celého modelu s daty Založen na chí-kvadrát testu stejně jako v CFA. ◦CFI, TLI, RMSEA, SRMSR, AIC, BIC, saBIC a další. Full-information statistiky: χ2, G2. ◦Založené na diskrepanční likelihood funkci (G2), resp. diskrepanci pozorované a modelem predikované matici odpovědí (χ2). ◦Jinými slovy: diskrepance multivariační frekvenční tabulky všech položek. ◦Jaké jsou předpoklady χ2? Jsou dodrženy? Proto limited-information statistiky: M2, M2*, C2. ◦M2, M2* – univariační a bivariačí frekvence, binární (M2) a polytomické (M2*) položky. ◦C2 – varianta pro kratší testy s delší odpověďovou škálou, pouze bivariační frekvenční tabulky. Interpretace indexů CFI, TLI, RMSEA a dalších založených na M2, M2*, C2 analogická indexům v CFA. RM: Spolehlivost položky (infit, outfit) RM: Spolehlivost položky (dichotomický Raschův model) Fit respondentů Přímá analogie v CTT neexistuje. Odpovídal respondent dle našeho očekávání? Konzistentně? ◦Byl test adekvátní pro daného respondenta? ◦Nemá specifické znalosti? Nebyl nesoustředěný? Neopisoval? ◦Je podkladem pro vytipování nepravděpodobných chyb / tipnutých odpovědí. Lze se podívat na „nejvíce nepravděpodobné odpovědi“. ◦Výhodné při didaktickém testování (co které děti nepochopily?). ◦„Kdo opisoval?“ J Dodatečný zdroj informací o objektivitě testování. ◦Ovšem pozor... při velkém množství respondentů vždy někteří respondenti nebudou modelu vyhovovat (Studentovo t-rozdělení...). ◦Velmi nereliabilní ukazatel. Fit u dalších modelů 2PL, 3PL modely mají řadu jiných ukazatelů fitu. ◦Nedává smysl rozdělení na overfit a underfit, protože položka nemůže diferencovat „příliš dobře“. Velké množství koeficientů. ◦Výsledkem je zpravidla p-hodnota toho, zda položka odpovídá modelu. ◦Plus velikost účinku – u binárních položek např. Cramerovo V. Jen pro přehled nejčastější ukazatele: ◦Signed χ2 (S_χ2), případně jen χ2 (analogie s outfitem u Raschova modelu); G2; Q1; plausible value Q1 (PV_Q1). ◦Plus bootstrapové varianty výše uvedeného. ◦Není nutné znát, v případě potřeby lze snadno dohledat v příslušném SW, interpretace je obdobná. ◦ Další modely IRT framework je velmi otevřený a existuje řada specifických modelů: ◦Neparametrické IRT modely (monotónní i nemonotónní ICC). ◦Multidimenzionální modely (tzv. item-factor analysis). ◦Item Response Time Models (např. van der Linden, různé modely) ◦Ipsative Item Response Models (pro položky s nucenou volbou) ◦Multiple-choice modely (non-extrémní asymptoty pro všechny distraktory) ◦Přesah do kognitivního modelování (IRT jsou jednoduché kognitivní modely). ◦Explanační IRT modely (de Boeck), multilevel m. a m. s latentní regresí. ◦Testují hypotézy o vlastnostech položek, nikoliv lidí. ◦A mnoho dalších... ◦ Vybrané aplikace IRT: Počítačové adaptivní testování (CAT) Equating, linking https://www.frontiersin.org/files/Articles/153826/fpsyg-06-01956-HTML/image_m/fpsyg-06-01956-g007.j pg Typická využití IRT Běžné ověření (konfirmační IRT) a explorace (explorační IRT) faktorové struktury. ◦Test pak může být skórován klidně s využitím CTT. IRT jako nástroj pro škálování. ◦Zajímají nás právě IRT odhady latentního rysu. IRT jako výzkumný nástroj (explanační modely). IRT jako model měření. DIF analýza a MG IRT (viz přednáška o férovosti). Další specifická využití: ◦Počítačové adaptivní testování (CAT) ◦Vyvažování paralelních forem testu (linking, equating) - souvisí se škálováním. Počítačové adaptivní testování Computerized Adaptive Testing (CAT) 1. myšlenka: Nemá smysl administrovat respondentovi takové položky, které nezpřesní odhad jeho latentního rysu. ◦Jsou pro něj příliš jednoduché (téměř jistě je odpoví správně) ◦Případně příliš těžké (téměř jistě odpoví chybně). ◦Takové položky nesou příliš málo informace (nízká hodnota informační funkce). 2. myšlenka: IRT nevadí chybějící data. Pracuje s dílčími položkami, nikoliv celým testem. Použití: TOEFL, GRE, v ČR A3DW či ATAVT od Schufrieda, Invenio od INPSY (in progress J). CAT: Ilustrace b -0.05 1.5 -1 -2 1 0.5 CAT: Ilustrace b -0.05 1.5 -1 -2 1 0.5 CAT: Ilustrace b a -0.05 0.5 1.5 0.3 -1 0.1 -2 1 1 1.5 0.5 1.2 Počítačové adaptivní testování: Postup Počítačové adaptivní testování: Výhody Efektivnější testování. ◦Zkrácení testu při zachování reliability / zvýšení reliability při zachování délky. Větší množství položek, každý má trochu jiné položky. ◦Redukce možnosti opisovat. ◦Snížení rizika a hlavně důsledků případného úniku položek. ◦Respondent nemusí odpovídat na neadekvátní položky (příjemnější testování). Lze využít i při individuální administraci. ◦Např. s využitím administrace na tabletu. CAT příklad CAT příklad CAT příklad CAT příklad CAT příklad CAT příklad Celý test: rxx‘ = 0,895 ◦Celkem 58 položek, čas M = 6,6 min. Zkrácený test: rxx‘ = 0,830 ◦Průměrně 15,7 položek, čas M = 2,0 min. Časová úspora: 70 % při nepatrném snížení reliability. IRT skóry z celého a adaptivního testu se neliší. ◦r = 0,96, χ2(df = 308) = 82,8, p = 1,00, pK-S = 0,91. ◦Jen výjimečně skoková změna odhadu výkonu. CAT příklad Test equating (vyvažování testů) Vyvážení obtížnosti jednotlivých forem testu. ◦V high stakes testech jednorázové vyvážení – sjednocení obtížností a srovnání probandů napříč formami testu. ◦V psychologických metodách vyvážení skóru paralelních forem a vyvinutí rovnocenných nástrojů. ◦Linking (prosté srovnání měřítek) vs. equating (zajištění stejné škály). Předpoklad: Obě formy měří stejný konstrukt (otázka validity). GRE, SAT: od konce 80./začátku 90. let je (v USA) IRT vyvažování high-stakes testů normou. Typické kroky: volba designu, sběr dat, samotná transformace. Test equating (vyvažování testů) IRT equating: Princip IRT používá „full-information“ estimátor. ◦Pokud chybí data náhodně (MAR), odhady parametrů položek nejsou ovlivněny. Pokud jsou parametry položek „na stejné škále“ (jsou vyvážené) a položky jsou lokálně nezávislé, latentní rys lze odhadnout pomocí jakýchkoli položek. Různé sety položek jsou vyváženy s pomocí společných prvků. ◦Anchor items – několik položek administrovaných ve více setech. ◦Anchor tests – celé soubory společných položek. ◦Anchor persons – osoby, které absolvují oba test (za předpokladu stále shodné úrovně rysu). IRT equating: Sběr dat Celá řada různých designů. Designy s jednou výzkumnou skupinou: single-group design. ◦Každá osoba absolvuje oba testy (counterbalancing = střídání pořadí). ◦Případně část respondentů absolvuje oba testy (common-person design). Designy s náhodnými skupinami: random-group design, random-equivalent-group. ◦Respondenty náhodně přiřadíme do výzkumných skupin. Předpokládáme, že jsou ekvivalentní. Designy se společnými položkami: ◦Dvě nezávislé/nenáhodné skupiny, ale oba testy mají společné položky (tzv. „kotvu“ – anchor test), které slouží ke kalibraci. Největší spolehlivost a hlavní výhoda IRT. ◦Ta může, ale nemusí být zahrnuta pro zjištění celkového skóru. ◦Kotev může být více („planned missing data design“). https://www.frontiersin.org/files/Articles/153826/fpsyg-06-01956-HTML/image_m/fpsyg-06-01956-g007.j pg Bolsinova, M., & Maris, G. (2016; suppl. mat) položky : anchor-item design : post-equating design post-equating : design https://www.frontiersin.org/files/Articles/153826/fpsyg-06-01956-HTML/image_m/fpsyg-06-01956-g007.j pg Bolsinova, M., & Maris, G. (2016; suppl. mat) položky : anchor-item design post-equating : design : post-equating design https://www.frontiersin.org/files/Articles/153826/fpsyg-06-01956-HTML/image_m/fpsyg-06-01956-g007.j pg Bolsinova, M., & Maris, G. (2016; suppl. mat) položky : anchor-item design : post-equating design post-equating : design https://www.researchgate.net/profile/Gunter_Maris/publication/289367648/figure/fig6/AS:314538864148 484@1452003317267/Equating-design_W640.jpg Bolsinova, M., & Maris, G. (2016; suppl. mat) položky Design použitý v Caribbean Secondary Education Certificate (Stancel-Piątak, Cígler, Wild, 2018). Další IRT modely Neparametrické IRT modely Diskrétní IRT modely, LCA. Unfolding/ideal point modely Kompenzatorní a nonkompenzatorní multidimenzionální modely. Explanační modely, LLTM modely. IRTree modely IRT modelování odpovědního času Neparametrické IRT modely Dosud jsme mluvili o parametrických modelech. ◦ICC je definována několika málo parametry, předpokládá se její určitý tvar. Existují ale i neparametrické modely. ◦Nepředpokládají konkrétní průběh ICC. Mokkenova škála. ◦Esenciálně jednodimenzionální položky, monotónní průběh ICC. ◦Značně oblíbená. Nikdy jsem nepochopil J Další neparametrické IRT modely. ◦Mohou být monotónní i nemonotónní, binární i ordinální. ◦Zpravidla nějaká polynomická funkce. Nespojitý latentní rys Všechny modely předpokládaly, že latentní proměnná je spojitá intervalová (a zpravidla normálně rozložená). To není nezbytně nutné. Diskrétní IRT: Latentní rys je intervalový, ale nabývá jen určitého počtu možných hodnot. ◦Např. „v pořádku“, „suspektně problematický“, „problematický“. ◦Modely jsou ale parametrizovány zcela shodně s tradičním IRT. Analýza latentních tříd (Latent Class Analysis, LCA). ◦Latentní rys je nominální. ◦Pro různé třídy platí různé parametry položek (a, b...). ◦Model může odhadnout pravděpodobnost, s jakou proband patří do té které třídy. ◦Příbuzné tzv. mixture modelům (modelům směsi). Kombinace LCA a tradičního přístupu je velmi silný nástroj. Ideal-point modely Všechny dosud prezentované modely předpokládaly, že čím vyšší míra rysu, tím vyšší (nebo naopak nižší) pravděpodobnost určité odpovědi. ◦Výjimkou byly non-monotónní neparametrické modely. To není vždy realistický předpoklad. Např. položka: „Nemám rád poklidné párty.“ ◦Co když nemám rád párty vůbec, protože jsem příliš introvertní? ◦Co když mám rád jenom party-hard, protože jsem party-(wo)man? To řeší právě ideal-point/unfolding modely. ◦Existují optimální úroveň (ideal-point) latentního rysu, která maximalizuje pravděpodobnost určité odpovědi. ◦Na obě strany od tohoto bodu pravděpodobnost klesá. ◦Ordinální položky – zejm.: generalized graded unfolding model ◦Binární položky – ideal-point model. Ideal-point modely https://image.slideserve.com/730096/example-ideal-point-irt-order-scale-l.jpg https://www.slideserve.com/content/applying-ideal-point-irt-models-to-score-single-stimulus-and-pai rwise-preference-personality-items Nonkompenzatorní IRT modely Nonkompenzatorní IRT modely Explanační a LLTM modely Běžné IRT modely slouží k „vysvětlení“ pozorovaných odpovědí. Explanační modely se snaží „vysvětlit“ parametry položek (typicky obtížnost). ◦Obtížnost položky je parcelována na různé složky podle charakteristik položek. ◦Využívá se v experimentálním designu. Explanační modely jsou konkrétním využitím LLTM modelu ◦Linear Logistic Test Model. ◦ICC (zpravidla 1PL model) je parametrizovaná jako běžný generalizovaný smíšený lineární model (GLMM), což umožňuje její odhad v rámci běžného statistického softwaru. ◦Parametry obtížnosti položek a schopnosti lidí jsou parcelovány mezi náhodné a pevné efekty. Příklad explanačního LLTM Šamajová & Cígler (2020), Cígler & Šamajová (2020) IRTree modely Zobecněný Tutzův sekvenční model. „Průchod“ položkou nemusí být sekvenční, ale libovolně se větví. Každý uzel navíc může být sycen jinými faktory. Užitečné v kombinaci s LLTM modely. 1PL/raschovská verze modelu lze odhadnout v běžném statistickém programu jako GLMM. Příklad IRTree modelu Test TIM3–5: správné odpovědi se řídily PCM modelem s jedním či dvěma body. Chybné odpovědi byly skórované 0=chybné řešení, nebo N=nepokusil/a se o řešení. Výsledky: ◦Latentní rys „styl práce“ byl relativně reliabilní ◦Jen slabě koreloval se schopností matematického usuzování. ◦Zdá se, že učitel má vyšší vliv na styl práce než na samotné usuzovaní. ◦Pokud je styl práce zanedbán, podílí se na celkové úrovni latentního rysu, nadhodnocuje reliabilitu a snižuje validitu měření. Multidimenzionální IRT (MIRT) Multidimenzionální IRT (MIRT) McDonaldův MIRT založený na normální ogivě ◦Technicky vzato faktorová analýza s nelineární parametrizací. ◦GRM = kategorická FA. vs. Reckaseho logistický model. ◦Protože normální ogiva je blízká logistické funkci, výsledky jsou v praxi velmi podobné. ◦Výpočetně výrazně jednodušší. ◦Logistický model dnes jednoznačně vede (McDonaldův model se zpravidla odhaduje prostřednictvím ordinální CFA). ◦ MIRT: Latentní rysy Model může být exploratorní (EFA MIRT) nebo konfirmační (CFA MIRT). ◦Rotace u exploračních modelů stejně jako v EFA. Každé osobě je přiřazen vektor latentních rysů, pro každou dimenzi jeden. ◦Mohou být korelované nebo nekorelované. Namísto hierarchických modelů jako v CFA se používá bifaktorový model. Hierarchical Model Bifactor Model MIRT: diskriminace MIRT: Ostatní Namísto charakteristické křivky testu je definovaná „charakteristická plocha testu“. ◦Ale její výpočet je analogický. Obdobně pak „informační plocha“ testu... ◦... vzniká součtem informačních ploch položek. ◦Zajímá nás rovněž, ve směru které dimenze chceme diskriminovat, podle toho se může odhad informační funkce lišit. MIRT: Ostatní http://image.slidesharecdn.com/albertmaydeu-olivares-contemporarypsychometricsafestschriftforroderi ckp-150808141615-lva1-app6892/95/albert-maydeu-olivarescontemporary-psychometrics-32-638.jpg?cb=144 5796073 http://www.slideshare.net/guns12380/albert-maydeu-olivarescontemporary-psychometrics Další aplikace IRT DIF analýza ◦Differential item functioning – zjišťujeme, zda položka měří pro všechny respondenty shodně. ◦Otázka konstruktové validity a férovosti testu. ◦Ukážeme si podrobněji na příslušném setkání. Multifasetový design, explanatorní IRT modely, modely s odpověďovými kovariáty atd. ◦Odpověď je predikována dalšími pozorovanými proměnnými; například příslušností ke skupině, „přísností“ posuzovatele atp. ◦Podobné jako teorie zobecnitelnosti.