Alternativní přístupy k tvorbě a interpretaci (nejen) psychologických testů Item Response Theory (IRT) Kowledge Space Theory (KST) PhDr. Denisa Denglerová, Ph.D. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Historie IRT Dvě odlišné linie Evropa – dánský matematik George Rasch, pracoval pro dánskou armádu, modely zabývající se schopností čtení, šifrování 1960 Probabilistic models for some intelligence and attainment test Inspiroval dva psychometriky, Gerhard Fischer z Vídeňské Univerzity, který Raschův matematický model spojil více s psychologickým uvažováním. USA - za začátek IRT považuje vydání knihy „Statistical Theories of Mental Test Scores“ (Lord a Novick, 1968), v rámci níž se objevily čtyři kapitoly o IRT napsané Allanem Birnbaumem. V 70. letech Rasch navštívil University of Chicago, aby tam přednesl sérii přednášek, inspiroval profesora Benjamina Wrighta, množství doktorandských prací současných klasiků IRT – Daves, Weiss, Humbleton… ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Dva základní postuláty IRT Výkon respondenta na testové položce je predikovatelný (vysvětlitelný) množinou faktorů, nazývané rysy, latentní rysy nebo schopnosti. Vztah mezi výkonem respondenta na položce a množinou rysů, jež tento výkon zapříčiňují, může být popsán monotónní rostoucí funkcí nazývanou charakteristická funkce položky (item characteristic function). Tato křivka má tvar normální ogivy. n ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Charakteristická křivka položky charakteristicka_funkce_polozky ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Předpoklad jednodimenzionality a lokální nezávislosti Společným předpokladem IRT modelů je to, že množina položek (tedy celý test nebo subtest) měří pouze jednu schopnost. Tato podmínka samozřejmě není v reálu nikdy zcela splněna, jde spíše o ideál, k němuž se při výzkumech i jiných aplikacích snažíme co nejvíce přiblížit. Odpovědi zkoušeného na každé dvě položky jsou statisticky nezávislé, což znamená, že neexistuje žádný vztah mezi odpověďmi respondenta na různé položky. Tento předpoklad částečně nahrazuje požadavek jednodimenzionality, jehož absolutní splnění je nemožné. Předpoklad lokální nezávislosti nám pomáhá při tvorbě modelu uvažovat právě nad těmi schopnostmi, které opravdu ovlivňují odpovědi na položky. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Tři klasické modely v rámci IRT Raschův model, 1PL Birnbaumův model, 2PL Model s uhádnutelností, 3PL ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Jednoparametrový logistický model P(θ)… pravděpodobnost, že náhodně vybraný respondent se schopností θ odpoví na položku správně b… parametr obtížnosti položky e…Eulerovo číslo ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Jednoparametrový logistický model Parametr položky b je bod na škále schopností, v němž je pravděpodobnost správné odpovědi rovna 0,5. Čím vyšší je hodnota b, tím větší schopnost je požadována po respondentovi, aby pravděpodobnost jeho správné odpovědi byla 50%, a tím je tedy položka těžší (obtížnější). Parametr b…(-4, 4) ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Charakteristické křivky položek lišící se parametrem obtížnosti rozdil v parametru b ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Birnbaumův model D…konstanta, která formátuje logistickou funkci, aby byla tvarově co nejvíce podobná normální ogivě, má hodnotu 1,7 a…diskriminační parametr, vyjadřuje velikost naklonění charakteristické křivky položky v bodě b Položky, které jsou v bodě b strmější (a tedy je pro ně parametr a vyšší), mají větší rozlišovací potenciál,vhodnější pro třídění respondentů podle odlišných úrovní schopnosti θ, než položky pozvolnější Parametr a…teoreticky definován v (-¥, +¥), v psychometrické praxi obvykle (0, 2) ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Charakteristická křivka 2PL modelu úhel α, který svírá tečna charakteristické křivky položky v bodě s přímkou proloženou úrovní 50% pravděpodobnosti ilustrace parametru a ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Charakteristické křivky položek se stejným parametrem obtížnosti, ale lišící se v diskriminačním parametru rozdil v parametru a ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Model s uhádnutelností c…hodnota pravděpodobnosti, s jakou i respondent s nulovou měřenou schopností „vyřeší“ položku správně objevuje se ve formátech položek s vícenásobnou volbou snaha o minimalizaci parametru uhádnutelnosti psychologické testy ve výkonové oblasti (např. testy inteligence) a pro pedagogické testování ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Charakteristické křivky položek tříparametrového modelu rozdil v parametru c ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Specifická objektivita (=vlastnost invariance) Vlastnost invariance položky a úrovně latentního rysu je základním kamenem IRT, a také hlavním rozdílem oproti klasické testové teorii. Znamená to, že parametry, které charakterizují položku, nezávisí na rozložení schopnosti respondentů a zároveň úroveň schopnosti θ, která charakterizuje respondenta, nezávisí na množině položek. Důsledek: překonání omezení CTT výsledky všech testů založených na CTT mohou být interpretovány a srovnávány pouze v rámci populace, na níž byl test standardizován porovnávat výsledky různých testů, které však měří stejnou schopnost, není možné ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Limity představovaných modelů nNejjednodušší modely, pro pochopení principů IRT nStriktně jednodimenzionální nDichotomní n nV současnosti několik desítek různých modelů pro různé úrovně měření (např. Samejimin model pro škálové proměnné) nMultidimenzionální modely nDobrý přehled nabízí Handbook of Modern Item Response Theory (Linden, Hambleton, 1996) ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Odhad parametrů nOdhad parametrů položky nOdhad schopnostního parametru nNejčastěji – společný odhad parametrů položky i probandovy schopnosti Pravděpodobnostní funkce N respondentů odpovídajících na n položek za předpokladu lokální nezávislosti vypadá následovně ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Informační funkce položky numožňuje popsat přínos konkrétní položky nvelký význam při konstrukci testů, neboť právě velikost informace, kterou daná položka přináší, může být vhodným kritériem pro rozhodování, zda položku ponechat nebo ji vyřadit z testu I(θ) je velikost informace, kterou poskytuje položka i při úrovni schopnosti θ. P(θ) je pravděpodobnost správné odpovědi. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Informační funkce a její souvislosti s parametry položky nVětší množství informace poskytují položky s vyšší obtížností. nDiskriminační parametr položky podstatně ovlivňuje velikost informace, kterou daná položka poskytuje. Čím je diskriminační parametr vyšší, tím větší má položka informační hodnotu. Položky s nízkým diskriminačním potenciálem jsou v rámci testu statisticky zbytečné. Mohou však mít význam například na začátku testu jako zácvičné položky, neboť je vhodné, aby je zvládla většina respondentů a neztratila tak motivaci pro další práci s testem. nSe zvyšující se hodnotou parametru uhádnutelnosti položky samozřejmě informační hodnota klesá, neboť i ti respondenti, kteří nedisponují danou schopností, mají jistou pravděpodobnost (dle velikosti parametru c), že na položku správně odpoví. nInformační hodnota položky se různí dle úrovně schopností. Položka s relativně velkou obtížností má tedy velkou informační hodnotu mezi respondenty s vysokou mírou dané schopnosti, ale ve střední oblasti schopnosti nám tolik informace neposkytne. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Informační funkce testu a standardní chyba měření Jako charakteristiku celého testu můžeme používat informační funkci testu, což je součet informačních funkcí všech položek, které test obsahuje. Z informačního přínosu testu můžeme odvodit standardní chybu měření podmíněnou danou úrovní latentního rysu. I(θ) je informace, kterou poskytuje konkrétní test pro respondenta s odhadem schopnosti θ. Informační funkce testu se používá také při srovnávání a zhodnocování dvou či více testů. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Srovnání IRT s klasickou testovou teorií ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Nezkreslený odhad vlastností položek Položka v CTT je obvykle charakterizována p-hodnotou, což je podíl osob, které v rámci standardizačního souboru zodpověděly danou položku správně nebo kladně. Další popisnou statistikou položky je její rozlišovací účinnost. Je to míra, která určuje, jak se respondenti liší ve svých odpovědích na tuto položku. Obě tyto charakteristiky podstatně závisí na úrovni měřené schopnosti a jejím rozložením v populaci. V CTT je tedy nezkreslený odhad vlastností položky závislý na reprezentativnosti souboru respondentů. Z definice charakteristik položek v IRT a způsobu odhadu parametrů IRT modelů vyplývá, že parametry položky jsou stanovovány nezávisle na rozložení schopnosti u konkrétního respondenta. Nezkreslený odhad vlastností položek tedy můžeme získat z nereprezentativního vzorku. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Reliabilita a délka testu V CTT platí: delší test je reliabilnější než kratší test. V rámci IRT toto pravidlo neplatí, reliabilita závisí na jiných aspektech než je délka testu. V IRT je přesnost měření zjišťována pomocí informační funkce testu, a ta je sumou informačních funkcí použitých položek. Proto závisí na přispění jednotlivých položek, a ne pouze na jejich počtu (tedy délce testu). ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Standardní chyba měření Standardní chyba měření v CTT je vlastností testu a nezávisí na konkrétní úrovni měřené schopnosti, tudíž je konstantní pro všechny dosažené skóry. Zároveň je však standardní chyba specifická pro danou populaci, na níž byl test standardizován. Standardní chyba v rámci IRT je definována jako odmocnina převrácené hodnoty celkového informačního přínosu testu, tedy je variabilní a závisí na úrovni měřeného latentního rysu. Také umožňuje zobecnění na různé populace. Ze znalosti standardní chyby měření můžeme sestrojit intervaly spolehlivosti. Omezení CTT způsobuje, že všichni probandi mají stejný rozsah intervalu spolehlivosti (neboť i standardní chyba je shodná), v IRT je možné sestavit intervaly spolehlivosti pro odhad schopnosti θ pro konkrétního probanda. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Porovnávání testových forem V rámci CTT je to velký problém, neboť porovnávat testová skóre je optimální pouze u paralelních forem testu. Schopnost respondenta má smysl brát v úvahu pouze v kontextu daného testu, proto jakékoliv porovnávání odlišných forem testů nepřináší žádnou adekvátní informaci. IRT však tvrdí, že velikost informace, kterou nám test přináší, závisí na úrovni latentního rysu respondenta. V rámci IRT je tedy vždy lepší odhad úrovně schopnosti získán použitím neparalelních forem testu. Nejpřesnější odhad schopnosti probanda obdržíme na základě adaptivního testování. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Formát položek v rámci testu V CTT vedou smíšené formáty položek k nevyváženému dopadu na celkový testový skór. Tuto nepříznivou situaci překonává IRT, neboť zde vliv na celkový skór nemá formát položek, ale jejich parametry a tudíž je možné s použitím smíšených formátů položek vytěžit optimální testový skór. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Počítačové adaptivní testování ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Software pro realizaci CAT START • Initial estimation of the latent trait (ability) • Selection of the appropriate item from the item pool depending on the level of the latent trait • Respondent‘s answer • New estimation of the latent trait END • Several possibilities. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Průběh algoritmu CAT I. Section – Selection of suitable model (good model-data fit) the program works with 3 models (1PL, 2PL, 3PL) currently it is still possible to use other models, especially designed for personality testing II. Section – Selection of procedure for estimation of ability marginal maximum likelihood estimation marginal maximum a posteriori estimation (Bayes estimation) III. Section – The begining of test several (three) randomly selected items are administred to respondent, the items should have lower parameter of difficulty (estimation of ability - positive motivation of respondent) the item with the particular parameter of difficulty is chosen (if the level of ability has been approximately known) ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Průběh algoritmu CAT IV. Section – Selection of the Item to Administer nthe item with the highest information function’s value nrandom selection from items, the information contribution of which is higher then the a priori set value n random selection from several items with the highest information n function’s values together with all items with information function’s n values higher than the a priori set value n V. Section – Format of Items n a respondent chooses an answer from offered choices (different answers) nopen ended statement – the answer is compared with the list of possible answers n ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Průběh algoritmu CAT VI. Section – Item pool nAll items are taken from 1 item pool (unidimensional intelligence test) nThere are more item pools, every pool measures different trait. The item to administer is chosen from the pool with the highest standard error within the estimation of the latent trait. As a result we receive more estimates of different traits (Eysenck test – one item pool for neuroticism, and other pool for extroversion). nStratified item pool – items in the pool are distributed to groups which are regularly alternated during the administration of the pool (if there is not a suitable item in the current group, it is skipped). The result is one estimation of one skill (test measures mathematics skill of pupilsand the groups are addition, subtraction, multiplication, division). n ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Průběh algoritmu CAT VII. Sections – End of program Program can be designed to stop when: n the maximum (a priori set number of items) test length is reached n the pool has run out of the suitable items (in the case of small item n pool) n the estimation of a latent trait exceeds the pass-fail criterion n the level of the trait is estimated with the sufficient precision n the standard error is lower than the set value n the difference of standard errors between two last items is sufficiently small n ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Teorie vědomostního prostoru ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Teorie vědomostního prostoru - KST Teorie vědomostního prostoru umožňuje uspořádat vědomosti jedince do přehledné struktury, z které vyplývá, která vědomost je nutná pro vybudování vědomostí dalších. Zároveň nabízí nástroj pro detekování toho, které vědomosti jsou na sobě zcela nezávislé a které spolu naopak určitým způsobem souvisí. Základy KST formulovali Doignon a Falmagne v roce 1985. Vědomostní doména Q je konečná množina problémů mapující nějakou vědomostní oblast. Vědomostní stav K je podmnožina všech problémů z vědomostní domény, které je určitý jedinec schopen úspěšně vyřešit. Vědomostní struktura K je množina všech vědomostních stavů, které pro určitou doménu Q mohou být pozorovány v nějaké populaci. Vědomostním prostorem se struktura stává pokud je uzavřena na sjednocení i na průnik. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Prerekvizitní relace Prerekvizitní relace je binární relace, která udává, že ze správného vyřešení položky A můžeme usuzovat na správné vyřešení položky B. Jinými slovy: pokud respondent správně zodpoví (resp. zodpoví v indikovaném směru v případě nevýkonových testů) položku A a z toho můžeme usuzovat na správné zodpovězení položky B, potom dvojice (B, A) je v prerekvizitní relaci. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Prerekvizitní relace D B C A D A B C D B C A Položky na prvním obrázku mezi sebou nemají žádný vztah, v druhém případě se jedná o lineární uspořádání vůči jedné vlastnosti (známé z Guttmanova škálování). Třetí příklad znázorňuje typickou sekvenci ve vědomostní struktuře (položky C a D mezi sebou nemají žádný vztah, obě jsou však prerekvizitami pro položku B). ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Způsoby tvorby vědomostního prostoru Hierarchie domény Q – doména je již takto strukturována, např. didaktické koncepce Analýza dat respondentů Expertní posouzení - několik expertů posuzuje všechny možné neprázdné podmnožiny vybrané z množiny Q vzhledem ke všem dalším možným neprázdným podmnožinám z množiny Q. Pravdivost tvrzení: „Pokud respondent selže na všech položkách z podmnožiny A, bude to mít za následek selhání na všech položkách z podmnožiny B.“ ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Empirická část test BOMAT Inteligenční test, 40 položek autoři Hossiep, Turck a Hasella, 2002 Analýza v kontextu teorie odpovědi na položku Seřazení položek testu podle parametru obtížnosti (3 PL model) Analýza v kontextu teorie vědomostního prostoru Dvoupatrová vědomostní struktura + několik separovaných položek Vždy několik položek s nižší obtížností tvoří prerekvizity pro položku s vyšší obtížností na základě podobného principu nutného pro vyřešení úlohy 02 ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Výsek vědomostního prostoru nad testem BOMAT 39 34 24 29 8 2 5 3 ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Empirická část – NEO FFI Vědomostní prostory pro každou dimenzi testu zvlášť (detekce vrcholových položek) Společný vědomostní prostor pro dvě dimenze Různé vědomostní prostory ve stejné dimenzi dle sociodemografických charakteristik (muži x ženy, dospělí x adolescenti) Různé vědomostní prostory ve stejné dimenzi ze souboru náhodně rozděleného na dvě poloviny (vysoká shoda svědčící pro reliabilitu metody) Různé vědomostní prostory ve stejné dimenzi získané odlišnými způsoby (porovnání prostorů vygenerovaných z dat respondentů a prostorů vzniklých expertním posouzením) ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Dva různé způsoby tvorby vědomostního prostoru dimenze extroverze Expertní posouzení Analýza dat respondentů Míra shody vědomostních prostorů je 70%, pomineme-li obousměrnost 85%. ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Rozdíly v dimenzi neuroticismus podle pohlaví 1 16 31 46 6 11 21 36 41 51 56 26 6 11 21 36 41 51 1 16 31 46 56 26 Vědomostní prostor mužů Vědomostní prostor žen Položka 56 „Někdy se stydím, že bych se nejraději neviděl.“ ALTERNATIVNÍ PŘÍSTUPY K TVORBĚ A INTERPRETACI PSYCHOLOGICKÝCH TESTŮ Závěr Teorie vědomostního prostoru přináší nové možnosti do psychometriky, konstrukce a interpretace testů. Tři hlavní přínosy: Oblast adaptivních testů – KST slouží jako algoritmus z něhož může vycházet počítačové adaptivní testování, zefektivňuje dotazovací proceduru výběrem vhodných položek. Detekce odlišných, nepravděpodobných odpověďových vzorců – východisko pro lži skóre, detekci opisování, ale i kreativní nestandardní řešení… Oblast sémantická – umožňuje postihnout, jak různí lidé chápou smysl položek či jejich skupin.