Psychometrická kazuistika: Vývoj testu TIM3–5 PSYB2590: ZÁKLADY PSYCHOMETRIKY (SEMINÁŘ 6) 11. 5. 2020 | HYNEK CÍGLER Okolnosti vzniku testu V rámci jednoho projektu probíhaly kurzy rozvoje matematických schopností. ◦ Realizované katedrou didaktiky na Pedf MU ve spolupráci s námi. Šárka Portešová potřebovala test pro diagnostiku matematicky nadaných dětí. ◦ Mj. ověření efektivity toho kurzu. Hynek Cígler byl čerstvě na doktorátu: „Měření matematických schopností“. ◦ A neměl do čeho píchnout. Na doktorát nastoupil Ondra Straka: „Kognitivní profil matematicky nadaných dětí“. ◦ A neměl do čeho píchnout. Na doktorát nastoupil Michal Jabůrek se zkušenostmi z projektů DYS na NÚV. ◦ A neměl do čeho píchnout. Harmonogram vývoje 2015-2017 • Analýzy • Programování aplikace • Příprava manuálů • Testování leden 2018 • Uvedení testu do ostrého provozu • Zahájení prodeje Východiska vývoje 1. Cílené zaměření na nadané žáky. 2. Soulad s teoretickými východisky. 3. Zaměření na proces řešení. 4. Přizpůsobení aktuálnímu vzdělávacímu systému. 5. Snadnost administrace a vyhodnocení. Fasetový model My (Centrum nadání; CN) jsme identifikovali dvě oblasti: ◦ Schopnost numerických výpočtů – rychlost zpracování (v rámci CHC Gs → N). ◦ Matematické usuzování (v rámci CHC Gf → RQ). Naopak jsme vyloučili kvantitativní znalosti (Gq) a výkon v matematice (A3). Katedra didaktiky (PedF) připravila seznam typů příkladů: (RNDr. Růžena Blažková, CSc., Mgr. Irena Budínová, Ph.D., Mgr. Helena Durnová, Ph.D., & RNDr. Milena Vaňurová, CSc.) ◦ číselné obory ◦ logické úlohy ◦ rozvoj geometrických představ ◦ konstrukční geometrické úlohy ◦ početní geometrické úlohy ◦ kombinatorické úlohy ◦ úlohy z teorie grafů ◦ problémové a aplikační úlohy Tvorba položek Tvorba položkové banky (těžko říct, kolik položek) z různých zdrojů. Vybráno bylo 62 položek pro pilotáž. Rozděleny do tří oblastí. ◦ Aplikační úlohy (logické + problémové a aplikační úlohy) ◦ Geometrické úlohy (rozvoj geom. představ + konstrukční + početní geom. úlohy + teorie grafů) ◦ Aritmetické úlohy (číselné obory + kombinatorické úlohy) Série kognitivních pilotáží. Kvantitativní pilotáž 1 ve 4. a 5. třídách ZŠ. ◦ Aplikační úlohy, n = 82; geometrické úlohy, n = 68; aritmetické úlohy, n = 74. ◦ CTT a RM položkové analýzy, EFA, CFA, důraz na obsah (vybírány byly i položky s p = 0). ◦ Zkoušeny různé způsoby skórování. Příprava pilotní verze (pilotáž 2) Položky ze tří verzí smíchány a vytvořeny dvě alternativní verze A a B. ◦ Sedm položek shodných, několik položek „alternativních“. N = 524. Proběhly 3 sběry s 2–3měsíčními odstupy (část dětí absolvovala v mezičase kurz rozvoje matematických schopností). ◦ 1. sběr: n = 463 (60 nadaných). ◦ 2. sběr: n = 325 (45 nadaných); 295 dětí se zúčastnilo obou sběrů. ◦ 3. sběr: n = 31 (8 nadaných). Obtíže: ◦ Jak anonymně spárovat data? ◦ Jak zajistit, aby děti neopisovaly? Jak seřadit položky? ◦ Nikdo to neuměl počítat, bylo potřeba se to naučit. R, Winsteps, SPSS . ◦ A asi milion dalších  Ověření skórování položek Standardizace Vyřazeny numerické schopnosti. ◦ Nízká vnitřní konzistence i test-retest, nejasná faktorová validita, slabá souvislost se zbytkem. Na základě pilotáže další redukce položek a seřazení podle obtížnosti. ◦ Naopak zařazení nejjednodušších položek („milosrdné úvodní položky“). Po jejich přesunutí na začátek fungovaly a jsou oproti záměru skórovány. N = 797. Obtíže s reprezentativitou. Pro některé analýzy smíchání dat s pilotáží. ◦ Zejména kalibraci parametrů položek a vyvážení paralelních verzí. Postup analýz Analýza po 1. a 2. sběru Pilotáže 2. ◦ Návrh paralelních forem, seřazení položek, provizorní skórování. ◦ (3. sběr pilotáže jsme neočekávali.) Analýza sloučených dat z pilotáží a standardizace. ◦ Parametrizace testu, kalibrace parametrů položek, vytvoření paralelních forem. Odhad reliability standardizační verze (pouze standardizační vzorek). Odhad validity (využito, co bylo k dispozici). Normy (standardizační vzorek). Srovnání pilotáže a paralelních verzí Srovnání IRT odhadů obtížností položek. DIF analýza. Srovnání rozložení verzí testu (QQ-plot, histogramy). Software: ◦ SPSS: část validizace. ◦ R: část validizace, některé grafy. ◦ Winsteps: Kalibrace položek, část analýz. ◦ MS Excel: archivace dat, část analýz, některé grafy. ◦ Mplus: úvodní CFA (později předělány v R). Srovnání pilotáže a standardizace Srovnání pilotáže a standardizace Srovnání pilotáže a standardizace Paralelní verze testu Common item nonequivalent group equating with concurrent calibration and counterbalancing design  (Kolen a Brennan, 2014, s. 182–183) Kolen, M. J., & Brennan, R. l. (2014). Test equating, scaling and linking: methods and practices. Springer. Paralelní verze testu (A13 vs. B14) Forma A Forma B Paralelní verze testu Položkové analýzy, deskriptivy Transparentní publikace všech relevantních parametrů finální verze testu. Reliabilita Separátní odhady pro pilotáž, standardizaci, obě formy zvlášť i dohromady. CTT i IRT odhady. ◦ V CTT i ordinální alfa (Zumbo et al., 2007) pro ověření validity. IRT odhady použity pro konstrukci SE a CI. Všechny ročníky, každý ročník zvlášť, lokální odhady reliability (Daniel, 1999). Daniel, M. H. (1999). Behind the scenes: Using new measurement methods on DAS and KAIT. In S. E. Embretson & S. L. Hershberger (Eds.), The new rules of measurement: What every psychologist and educator should know (pp. 37–64). Erlbaum. Reliabilita Reliabilita test-retest Shoda posuzovatelů Vše na úrovni celkového skóre i položek. Inter-rater reliabilita: ◦ Studie 1: 30 náhodně vybraných protokolů. Student FSS vs. 1 z autorů testu. ICC(2,1) = 0,997. ◦ Studie 2: Pilotní používání testu (N=28). Učitel vs. jiný autor testu. ICC(2,1) = 0,989. Chybovost přepisu do on-line aplikace: ◦ Z celkového počtu 725 zapsaných hodnot jen 1 chyba, která navíc nevedla k odlišnému skóru. Intra-rater reliabilita (odstup 6 měsíců): ◦ N = 31. ICC(2,1) = 0,994. Validita: Vnitřní struktura Kriteriální validita: nadaní a „šikovní“ Kriteriální validita: Prospěch Souběžná validita: intelekt (WJ-IE-2 COG CZ a WISC-III) Souběžná validita: intelekt (CFT) Pozorované: r = 0,643 SEM: β = 0,867 ◦ (po kontrole věku) ◦ βTIM = 0,090 ◦ βCFT = 0,293 ◦ MG mixed CFA (WLSMV). ◦ χ2(1077) = 1159,9, p = 0,040, TLI = 0,974, RMSEA = 0,020 s CI90% = [0,005; 0,028] ◦ N = 401. Souběžná validita: Aritmetické s. Souběžná validita: Vizuoprostorové s. Další studie Pozornost: Test pozornosti d2 (slabé). Souvislost s rychlostí práce/odevzdání (slabé). Lateralita (nic). Číselný trojúhelník – aritmetika (slabé). SPU (různorodé a slabé, malé n). Normalita rozložení IRT skórů (normální). Vliv účasti v rozvojovém kurzu (slabý). ◦ Nominace lektorů kurzu (silný). Férovost: skupiny DIF analýza podle pohlaví, ročníku, nadání... Férovost: jiné Neměly horší děti jen málo času (neměly). Čas vyšetření (celkově žádný, ale různé podle úloh). Normy: Čas sběru v rámci školního roku Normy: věk a pohlaví Použité skóry Percentily. T-skóre. W-škála. RPI-1 (ve formě XX/10) – adaptovaný RPI index ◦ Např. 45/10: virtuální položku, kterou vrstevníci řeší správně s 10% pravděpodobností, respondent vyřeší s 45% pravděpodobností správně Validizační ukazatele na úrovni položky. ◦ A jejich vývoj (nepravděpodobně správné či chybné odpovědi). Vše doplněné o chybu měření. Další aktivity Grafická úprava všech materiálů, sazba. ◦ Testové sešity, stručné skórovací šablony, manuály... Uživatelská příručka (125 s.) ◦ Základní informace, Etika, Teoretická východiska, Vývoj, Administrace, Skórování, Interpretace. Psychometrický manuál (76 s.). On-line vyhodnocovací aplikace. Zajištění recenzí monografie i testu (Urbánek, 2019; Krejčová, 2019). Uvedení do prodeje, publikace. Příručka uživatele Závěrem 4 roky práce. 4 granty ◦ (Náklady raději nepočítáme, nikdy by se to nezaplatilo. ) Obtíže s publikací článků. 1228 souborů, 1,0 GB dat ◦ (Po pročištění.) Uf  Zdroje: ◦ Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Test pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. ◦ Cígler, H., Jabůrek, M., Straka, O., & Portešová, Š. (2017). Psychometrická analýza TIM3–5 – Testu pro identifikaci nadaných žáků v matematice pro 3.–5. třídu. Brno: Masarykova univerzita. ◦ Cígler, H. (2017). Měření matematických schopností [Nepublikovaná dizertační práce. Masarykova Univerzita]. https://is.muni.cz/th/i3yos/ ◦ Krčová, V., Portešová, Š., & Cígler, H. (2017). ReyOsterriethova komplexní figura ve vztahu k rozumovému nadání a úrovni matematických schopností u dětí z třetích až pátých ročníků základních škol. Československá Psychologie, 61(1), 3–15. ◦ Cíglerová, J. (2016). Vztah matematického nadání, rychlosti zpracování a dalších kognitivních schopností [Masarykova univerzita]. http://is.muni.cz/th/322366/fss_m/