Teorie odpovědi na položku PSY028 | JARO 2018 | BLOK 1–2 TEORIE MĚŘENÍ, VÝCHODISKA RASCHOVA MODELU Organizace kurzu HARMONOGRAM středa 4. 4. 2018, 13:30–18:30 (PC25) čtvrtek 5. 4. 2018, 13:30–18:30 (PC25) středa 18. 4. 2018, 13:30–18:30 (PC25) čtvrtek 19. 4. 2018, 13:30–18:30 (PC25) středa 2. 5. 2018, 15:15–18:30 (PC25) čtvrtek 3. 5. 2018, 15:15–18:30 (PC26) POŽADAVKY NA UKONČENÍ Přiměřená docházka ☺ Kurz je zakončen kolokviem v podobě individuální konzultace v domluveném termínu. Ke zvládnutí kolokvia je nutné mít základní přehled v probrané látce a hlavně se seznámit s vybranými studijními zdroji podle vlastní preference (přiměřeného rozsahu) Část obsahu se překrývá s PSY479. Teorie měření Tradiční dělení teorií měření v psychologii: kontrast CTT a IRT. ◦ To je ale hodně povrchní dělení. Borsboom: ◦ Klasická testová teorie (Classical Test Theory, CTT) ◦ Modely s latentními proměnnými (EFA, CFA, CCFA, RM, IRT) ◦ Spojité měření (conjoint measurement) ◦ (Pokud jste tu čekali ještě network modely, tak ty nejsou měření☺). To, co se dnes vydává za CTT, je určitá smíšenina původní CTT a faktorové analýzy. ◦ Faktorová analýza je používána jako důkaz konstruktové validity či pro konstrukci testu. ◦ CTT je využíváno pro vlastní parametrizaci a definici měření. Teorie měření Je vhodné konceptuálně oddělit: ◦ Způsob „škálování“, tedy vztah pozorovaného chování a naměřené proměnné (tedy jakým způsobem z „pozorování“ vytvářím „skóry“). ◦ Způsob uvažování o tom, jaká je charakteristika měřených jevů. ◦ Způsob, jakým dokládáme kvalitu měření (validitu, reliabilitu...). Co to tedy je měření? Druhy měření Množství a velikost. ◦ Základní charakteristika měřeného pojmu/konstruktu/veličiny, kterou chceme měřit. Z principu tedy intervalové. Už v 18. a 19. století (Kant, Leibniz aj.) definice „intenzity“: ◦ Extensivní velikost – celek se fyzicky skládá z částí (délka). Položením dvou metrových předmětů za sebe vznikne předmět o délce 2 m. ◦ Intensivní velikost – rovněž intervalové, ale „projevují se“ instantně (teplota, barva...). „Sloučením“ dvou 20stupňových předmětů nevznikne předmět 40stupňový. ◦ Nepostačuje pro definici měření – jsou závislé na měřené veličině. Z principu jsou všechny psychické rysy intenzivními veličinami. Druhy měření Koncept fundamentálního měření. ◦ Základní: Není odvozené z jiného měření, měří se přímo objekt za pomocí stejné veličiny (délka pravítkem, váha závažím). ◦ Odvozené: Je odvozené pomocí aditivních operací z jiných naměřených hodnot (objem, čas, síla zemětřesení na Richterově stupnici). ◦ Nic jiného není měření v pravém slova smyslu. Podobné extensivní (fundamentální) a intensivní (odvozené) veličině. ◦ Fundamentalita však není charakteristikou měřené veličiny, ale měření jako takového. ◦ Odvozená veličina je ta, pro niž bylo použito odvozené měření; časem se z ní s vývojem jiného měřicího nástroje může stát veličina základní. Z této definice ale vyplývá, že měření v psychologii tak, jak existuje dnes, zřejmě není fundamentální ☺ Aditivita Aditivita je předpokladem sčítání; zjednodušeně princip: „celek je součet částí“. Umožňuje např. převést funkci „+“ do „ד: např. f(a+b) = f(a)+f(b). Předpokladem aditivity je „řazení“ (ordering) a „řetězení“ (concatenation). Hodnoty lze sčítat (násobit) a provádět běžné matematické operace. ◦ Což ale nemusí být smysluplné z hlediska dané veličiny (intenzivní vs. extenzivní). Základem měření je tedy intervalová/poměrová škála se stejně velkými jednotkami a aditivní strukturou (případně binární škála ano/ne). Je nutné oddělit aditivitu veličiny a aditivitu měřeného objektu. ◦ Např. objem je aditivní jednotkou, lze „sčítat“ např. m3. ◦ Při smíchání dvou látek ale může být výsledný objem jiný, než odpovídá součtu původních objemů. ◦ Intenzivní veličiny tedy umožňují řetězení/aditivitu škály, ale technicky to nemusí dávat smysl. Klasická testová teorie vpravo: Cronbach Klasická testová teorie Klasická testová teorie stojí na třech pilířích/objevech (Traub, 1997): ◦ Existence chyby měření I. typu (nezpůsobené ničím jiným). ◦ Chyba měření je náhodná veličina. ◦ Koncept korelace. Spearman (1904) přišel s koeficientem proti oslabení korelace („attenuation coefficient“), chybu měření parametrizoval a umožnil vznik CTT. Důležitým impulzem byla rovněž Fergusonova komise (1932-1940). ◦ Striktní požadavek aditivity. Protože psychologové nedokázali „zřetězení“ svého měření, psychologie podle závěrů komise neměří. ◦ Reakcí byla Stevensova „operační teorie měření“, která rozšířila definici měření: „...measurement, in the broadest sense, is defined as the assignment of numerals to objects and events according to rules.“ (Stevens, 1946, s. 677). Klíčový pojem je „matching“. ◦ Ve skutečnosti zjednodušení konsenzu z přírodních věd: „Measurement is a method of assigning numbers to magnitudes“ (např. Helmholtz, 1887). ◦ Umožnila nezabývat se tím, co jsou naměřené hodnoty, a „jít dál“. Vývoj CTT byl prakticky ukončen do 60. let, vše podstatné z hlediska CTT jako teorie měření je v Lordovi a Novickovi (1968). CTT: Axiomy „Dobré“ měření je takové, kdy různí lidé v různých časech dojdou různými nástroji ke stejným naměřeným hodnotám, pokud se míra samotného objektu nezměnila. Postup fyzikálního měření (např. délky): ◦ Změřím objekt n-krát a získám n měření délky označených jako 𝑑𝑖. ◦ Bodový odhad délky je průměr z těchto měření: E 𝑑 = σ 𝑖=1 𝑛 𝑑 𝑖 𝑛 ◦ To E 𝑑 je „expected value“ – odhad měřené hodnoty. ◦ Chyba tohoto měření (Standard Error /of Measurement/) je: ◦ Pro jediné měření: 𝑆𝐸 = 𝑠 𝑑 , kde 𝑠 𝑑 je výběrová směrodatná odchylka pozorovaných hodnot 𝑑𝑖 . ◦ Pro průměr z n měření: 𝑆𝐸 = 𝑠 𝑑 𝑛 (standardní chyba průměru!). ◦ (A použijeme Studentovo t-rozložení, protože 𝑠 𝑑 je pouze pozorovaným odhadem populační 𝜎 𝑑.) CTT: Paralelní testy Koncept reliability byl zaveden Spearmanem (1904) za účelem odhadu hodnot korelačních koeficientů nezkreslených nepřesnostmi měření. Od něj pak byla odvozena reliabilita v sociálních vědách. Pojem reliability je založen na konceptu paralelních testů. ◦ A na něm je založen celý model měření v CTT. Paralelní testy jsou takové, u kterých platí: ◦ A. Pravý skór je v obou testech a pro každý měřený subjekt stejný (exaktněji je průměrem z nekonečně velkého počtu měření). ◦ B. Rozptyl těchto pravých skórů je v obou testech stejný (platí automaticky, platí-li A). ◦ C. Chybový rozptyl je v obou testech a pro každý subjekt stejný (exaktněji jde o SD nekonečně velkého počtu měření). CTT: Paralelní testy CTT vychází z operacionalismu. ◦ CTT definuje „pravý skór“ (tj. objekt měření) skrze použitý měřící nástroj. Neřeší, jak tento skór vznikl – zpravidla jde tedy o součet položek. Základní CTT vztah 𝑋 𝑝 = 𝜏 𝑝 + 𝑒 𝑝 lze chápat jako lineární funkci. Standardizovaný regresní koeficient je potom roven korelaci prediktoru a závislé proměnné, tedy 𝑟𝑥𝜏. CTT: Reliabilita Reliabilita 𝑟 𝑥𝑥′ testu 𝑥 je definovaná jako vysvětlený rozptyl pozorovaného skóre pravým skóre: 𝑟 𝑥𝑥′ = 𝑅2 = 𝜎 𝜏 2 𝜎 𝑥 2 = 𝜎 𝜏 2 𝜎 𝜏 2+𝜎 𝑒 2 = 𝜎 𝑥 2−𝜎 𝑒 2 𝜎 𝑥 2 = 1 − 𝜎 𝑒 2 𝜎 𝑥 2 ◦ Úpravy platí, protože dosazujeme podle vzorce 𝜎 𝑥 2 = 𝜎𝜏 2 + 𝜎𝑒 2 . Vysvětlený rozptyl je druhá mocnina korelace, tedy: ◦ 𝑟 𝑥𝑥′ = 𝑟𝑥𝜏 2 = 𝑅2 ◦ 𝑟 𝑥𝑥′ = 𝑟𝑥𝜏 = 𝑅 OK. Ale jak tedy zjistíme to 𝑟𝑥𝜏? CTT: Paralelní testy Výpočtu lineární regrese je „jedno“, kterým „jde směrem“ ☺ ◦ Pokud tedy pravé skóre vysvětlí např. 80 % pozorovaného skóre, pak to samé pozorované skóre zároveň vysvětlí 80 % skóre pravého. Protože chyby měření spolu nekorelují (v CTT modelu), pravé skóre mediuje veškerý vztah obou testů. ◦ X1 vysvětlí 80 % T a to zase 80% X2. 80%2=64%. Korelace dvou měření je tedy 𝑟 𝑥𝑥′ = 𝑟𝑥𝜏 2 . ◦ Což už známe. T X1 X2 e1 e2 𝑟𝑥𝜏 𝑟𝑥𝜏 0 𝑟 𝑥𝑥′ = 𝑟𝑥𝜏 2 CTT: Reliabilita Reliabilita testu je proto mj. definována jako uvažovaná „korelace dvou paralelních testů“. ◦ Někdy zjednodušeně uváděno jako korelace metody se sebou samou, proto ten symbol 𝑟 𝑥𝑥′ – korelace měření 𝑥 s virtuálním paralelním měřením 𝑥′ . Hypotéza s paralelními měřeními nebyla nová, paralelní měření byly dlouho známým principem zpřesňování fyzikálních měření. Průlomový byl ale právě Spearmanův (1904) článek o oslabení nereliabilitou, díky kterému z pozorované korelace dokážeme odhadnout reliabilitu. Základní důkazy reliability v CTT jsou proto postaveny na „paralelní administraci testu“. ◦ Měří ale různé paralelní administrace stále to samé? CTT: Attenuation (oslabení) Hlavním motivem Spearmana (1904) při práci s reliabilitou byl odhad korelace dvou testů nezkreslený chybou měření. Tzv. „attenuation coefficient“, „korekce proti oslabení“, „korekce proti nereliabilitě“. Odhad korelace pravých skórů: 𝑟𝑝𝑞 ∗ = 𝑟𝑝𝑞 𝑟 𝑝𝑝′ 𝑟 𝑞𝑞′ ◦ Kde 𝑟𝑝𝑞 ∗ je odhad korelace pravých skórů, 𝑟𝑝𝑞 je pozorovaná korelace testů 𝑝 a 𝑞 a 𝑟 𝑝𝑝′, 𝑟 𝑞𝑞′ jsou jejich reliability. ◦ Protože korelace pravých skórů 𝑟𝑝𝑞 ∗ ≤ 1, lze odhadnout maximální možnou pozorovanou korelaci testů: 𝑟𝑝𝑞 ≤ 𝑟 𝑝𝑝′ 𝑟 𝑞𝑞′ CTT: Odhady reliability Stabilita v čase, reliabilita typu test-retest ◦ Paralelním testem (PT) je ten samý test administrovaný jindy. Shoda posuzovatelů, inter-rater reliabilita. ◦ PT je ten stejný test administrovaný někým jiným. Reliabilita paralelních forem. ◦ PT je jiný test vytvořený tak, aby „byl stejný“. Vnitřní konzistence ◦ Split-half: PT jsou jednotlivé půlky testu. ◦ Alfa: PT jsou jednotlivé položky/půlky testu. Lze čekat, že všechny koeficienty budou stejné? Jsou položky paralelními testy? Mohou být. Ale to je hodně silný předpoklad. Proto koncept „míry“ paralelnosti založený na faktorové analýze. ◦ 𝑋𝑖𝑝 = 𝜏𝑖 + 𝜆𝑖 𝜃 𝑝 + 𝜀𝑖𝑝 , kde 𝑋𝑖𝑝 je pozorovaný skór člověka p na položku i, 𝜏𝑖 je intercept (průměr všech osob na dané položce), 𝜆𝑖 faktorový náboj (směrnice, „měřítko“ položky) a 𝜀𝑖𝑝 je reziduum; ta mají rozptyl 𝜎𝑖 2 označovaný jako unicita (reziduální rozptyl, chyba měření položky). Jsou položky paralelními testy? 𝑋𝑖𝑝 = 𝜏𝑖 + 𝜆𝑖 𝜃 𝑝 + 𝜀𝑖𝑝 Stupně paralelnosti („vyšší“ obsahuje všechny „nižší“ předpoklady): ◦ Kongenerické položky – měří stejný rys. ◦ Položky jsou pouze vybrány ze stejné domény. ◦ Tau-ekvivalentní položky – měří na stejné „škále“. ◦ „Měřítko“ všech položek je stejné; shodné faktorové náboje 𝜆𝑖 napříč položkami. ◦ Paralelní položky – měří se stejnou chybou. ◦ Reziduální rozptyl 𝜎𝑖 2 shodný napříč položkami. ◦ Striktně paralelní položky – stejná obtížnost. ◦ Intercepty 𝜏𝑖 shodné napříč položkami. ◦ U binárních položek má paralelní a striktně paralelní shodný význam (protože 𝜎𝑖 2 = 𝜏𝑖 1 − 𝜏𝑖 . CTT: Předpoklady odhadů Řada odhadů reliability má nějaké předpoklady. Při jejich nedodržení je reliabilita součtového skóre (tedy odhad rozptylu vysvětleného pravým skóre) zkreslena: Cronbachovo alfa: tau-ekvivalence položek. Spearman-Brownova korekce split-half korelace: paralelní položky. Vše výše uvedené: jednodimenzionalita, případně lokální nezávislost ◦ A tím se dostáváme k FA. CTT: škálování Vizuální analogová škála (Hayes and Paterson, 1921) Thurstonova škála (1928) ◦ 3 různé typy, např. „metoda stejně se jevících intervalů“. Likertova škála (1932) ◦ Metoda sigma vs. zjednodušená metoda Guttmanova škála (40. léta) ◦ Rozšíření původní Bogardovy (1925) škály sociální distance. ◦ Původně deterministický model později rozšířen na stochastický model; Guttmanova škála jako základ IRT. Osgoodův semantický diferenciál (1957) Doporučuji kap. 5: Price, L. R. (2016). Psychometric Methods: Theory into Practice. New York: Guilford Press. Libgen ☺ CTT vs. faktorová analýza CTT měří pravé skóre testu. Co to sakra jako je? Pravé skóre je očekávaný skór respondenta v daném testu. ◦ Měření je závislé na měřicím nástroji. Délka stolu měřená pravítkem A a pravítkem B je nejen jiná, ale je to jiná délka. Jsou položky paralelními testy z hlediska měřeného pravého skóre? Z toho důvodu se CTT prolnulo s faktorovou analýzou, která ospravedlňuje CTT postupy (sčítání položek, přijetí konceptu „pravého skóre“), ověřuje „konstruktovou validitu“ atd. Teorie zobecnitelnosti Jednotlivé konceptualizace paralelních testů (test-retest, split-half, shoda posuzovatelů) neměří „tu stejnou chybu“. Jde o různé reliability. Jaká je ale „absolutní přesnost měření“? Cronbach, Nageswari a Gleser (1963) rozvinuli původní CTT koncept do teorie zobecnitelnosti. „Rozparcelovali“ náhodnou chybu měření do dílčích složek, které jsou odhadovány naráz; namísto pravého skóre měříme „universe score“, tedy pravý skór pro prostor daných kombinací podmínek. Původně se rozptyl parceloval pomocí rmANOVA, dnes spíš mixed model. Spojité měření vpravo: John Tukey víc vpravo: Gérard Debreu Spojité měření Nezávisle na sobě objevili francouzský ekonom Gérard Debreu (1960) a psycholog Duncan Luce s matematikem Johnem Tukey (1964). Conjoint measurement theory (CM; teorie spojitého měření) definuje, jakým způsobem lze z nominálních pozorování sestavit škálu s aditivními vlastnostmi. ◦ A tedy vyvrací závěry Fergusonovy komise; resp. poskytují možnost testovat kvantifikovatelnost pozorování psychických jevů. ◦ Pro nás je podstatné, že Raschův model je jednou ze stochastických specifikací jinak deterministického CM. V současnosti docela rychlý rozvoj v oblasti dalších stochastických aplikací pro různé účely, např. Karabatsos chrlí jeden model za druhým. Zajímavost: Tversky z dvojice Kahneman a Tversky (1979), kteří získali jako první psychologové Nobelovu cenu, se zaměřoval právě na CM (např. 1967) a jejich prospektová teorie je na CM založena. CM: Axiomy CM je založeno na několika axiomech. Jejich splnění vede k tzv. spojitému měření. Mějme dvě proměnné A a X. ◦ Nevíme, zda A, X, nebo A i X jsou kontinuální proměnné. a, b, c... jsou disjunktní, identifikovatelné úrovně proměnné A; x, y, z... jsou disjunktní, identifikovatelné úrovně proměnné X. P je seřazená množina všech možných 𝐴 × 𝑋 párů atributů A a X. ◦ Buď může být seřazená (přirozená čísla), nebo může jít o hodnoty (reálná čísla). CM: Single cancellation Požadavek „nezávislosti“. Řazení prvků A je stejné pro všechny úrovně X. ◦ Vyžaduje „řazení“, tedy první podmínku aditivity. Pokud 𝑎, 𝑥 < 𝑏, 𝑥 , pak 𝑎, 𝑤 < 𝑏, 𝑤 pro všechna 𝑤 ∈ 𝑋 . Platí tranzitivita: ◦ 𝑎, 𝑥 > 𝑏, 𝑥 ∧ ሾ ሿ 𝑏, 𝑥 > 𝑏, 𝑦 ⇒ 𝑎, 𝑥 > 𝑏, 𝑦 CM: Single cancellation Single cancellation – jednoduché vykrácení. ◦ 𝑎, 𝑥 < 𝑏, 𝑥 ◦ 𝑎, 𝑥 < 𝑏, 𝑥 ◦ 𝑎 < 𝑏 „left-leaning diagonal“ Pohyb „zpět“ ale není možný: ◦ 𝑎, 𝑥 > 𝑏, 𝑦 ⇒ 𝑎, 𝑦 ? 𝑏, 𝑥 ◦ Nic nelze vykrátit CM: Double cancellation Předpokládejme: ◦ 𝑎, 𝑦 > 𝑏, 𝑥 ◦ a tedy 𝑎 + 𝑦 > 𝑏 + 𝑥 ◦ a 𝑏, 𝑧 > (𝑐, 𝑦) ◦ a tedy 𝑏 + 𝑧 > 𝑐 + 𝑦 Tedy: ◦ 𝑎 + 𝑦 + 𝑏 + 𝑧 > 𝑏 + 𝑥 + 𝑐 + 𝑦 ◦ 𝑎 + 𝑦 + 𝑏 + 𝑧 > 𝑏 + 𝑥 + 𝑐 + 𝑦 ◦ 𝑎 + 𝑧 > 𝑥 + 𝑐 ◦ 𝑎, 𝑧 > 𝑐, 𝑥 „right leaning diagonal“ CM: Příklad 1 Délka. ◦ m > cm > mm ◦ stůl > kniha > tužka Jsou tužka-kniha-stůl kvantitami? Jednoduché vykrácení ◦ (tužka, mm) < (kniha, mm) ◦ (tužka, mm) > (tužka, cm) Dvojité vykrácení ◦ (tužka, cm) < (kniha, mm) ◦ (kniha, mm)/(tužka, cm) = 300/15 = 20 ◦ (kniha, m) < (stůl, cm) ◦ (stůl, cm)/(kniha, m) = 150/0,3= 500 mm cm m tužka 150 15 0,15 kniha 300 30 0,3 stůl 1500 150 1,5 (tužka, m) < (stůl, mm) ◦ (stůl, mm)/(tužka, m) = 1500/0,15 = 10000 tužka+cm+kniha+m < kniha+mm+stůl+cm ◦ tužka+m < stůl+mm ◦ 20*500 = 1000 Vznikne fundamentální škála: ◦ tužka=1, kniha=2, stůl=10 CM: Příklad 2 „Ovocná škála“. ◦ třešně > hrušky > jablka ◦ červené > žluté > zelené Je druh ovoce, resp. barva kvantifikovatelná? zelené žluté červené jablko zelené jablko žluté jablko červené jablko hruška zelená hruška žlutá hruška červená hruška třešeň zelená třešeň žlutá třešeň červená třešeň CM: Příklad 2 „Ovocná škála“. ◦ třešně > hrušky > jablka ◦ červené > žluté > zelené Je druh ovoce, resp. barva kvantifikovatelná? Ohodnoťte chutnost každého ovoce na škále 0-100. ANO ◦ třešeň = 5, hruška = 2, jablko=1 zelené žluté červené jablko 1 10 20 hruška 2 20 40 třešeň 5 50 100 CM: Příklad 2 „Ovocná škála“. ◦ třešně > hrušky > jablka ◦ červené > žluté > zelené Je druh ovoce, resp. barva kvantifikovatelná? Ohodnoťte chutnost každého ovoce na škále 0-100. NE ◦ Není dodrženo pořadí (single cancelation). zelené žluté červené jablko 1 50 60 hruška 1 80 80 třešeň 1 10 100 CM: Příklad 2 „Ovocná škála“. ◦ třešně > hrušky > jablka ◦ červené > žluté > zelené Je druh ovoce, resp. barva kvantifikovatelná? Ohodnoťte chutnost každého ovoce na škále 0-100. NE ◦ dodrženo double cancelation. zelené žluté červené jablko 1 3 4 hruška 2 10 20 třešeň 8 11 100 CM: Příklad 2 „Ovocná škála“. ◦ třešně > hrušky > jablka ◦ červené > žluté > zelené Je druh ovoce, resp. barva kvantifikovatelná? Ohodnoťte chutnost každého ovoce na škále 0-100. ANO? ◦ Existuje 3! × 3! = 36 možností dvojitého vykrácení. 30 z nich platí automaticky v případě jednoduchého vykrácení a pokud z těch 6 platí jediná, pak platí všech 6. ◦ Jedna platí. zelené žluté červené jablko 1 3 19 hruška 2 10 20 třešeň 8 11 100 Ne! ◦ Krácení není jedinými předpoklady v případě, kdy obsahem tabulky není jen řada přirozených čísel (prosté pořadí). CM: Další podmínky Jednoduché a dvojité vykrácení nestačí plně pro kvantifikaci. Řešitelnost: ◦ Pokud známe tři ze čtyř úrovni a, b, x, y, lze čtvrtou dopočítat tak, aby 𝑎, 𝑥 ~ 𝑏, 𝑦 . ◦ Jinými slovy: Každá úroveň P má hodnotu jak z X, tak z A. Archimedovská podmínka: ◦ „Hodnoty jsou rovnoměrně rozprostřeny.“ ◦ „To vše platí až do nekonečna.“ ◦ Neexistují příliš malé či příliš velké hodnoty, které by už nešlo srovnávat. Jinými slovy obsahem tabulky (P) musí být: ◦ Prostá pořadí bez vynechání (tedy přirozená čísla, pěkná škála), ◦ Dobře definovaná „škála“. CM: Posloupnost kancelací Bohužel, řešitelnost a archimedovská podmínka není přímo testovatelná. Lze ale řešit nepřímo pomocí „posloupnosti kancelací“. ◦ Pokud A=X=3, stačí dvojité krácení pro důkaz spojitého měření. ◦ Pokud A=X=4, je nezbytné trojité krácení. ◦ („Tranzitivita“ rozdílů). CM: vztah k psychologii Pokud A jsou například respondenti (které lze ordinálně seřadit podle míry schopnosti) a X položky (řaditelné podle obtížnosti), lze použít spojité měření. Pak by každý člověk měl být umístitelný na nějakou škálu obtížností položek a naopak. ◦ Šikovnější člověk vyřeší obtížnější příklady než méně šikovný člověk. ◦ Lehčí položku vyřeší i lehčí respondenti. ◦ Implicitní předpoklad Guttmanovy škály. Kvůli chybě měření (na úrovni položky) však přímo neplatí a platit nemůže. Modely s latentními rysy Random článek. Modely s latentními rysy Předpokládají, že existuje latentní, nepozorovaný rys, který kauzálně „způsobuje“ pozorované chování (odpovědi v dotazníku/testu). Vychází z realismu; proměnná musí existovat, aby mohla něco způsobovat (ale předmětem diskuze). Příkladem modelu může být stará dobrá faktorová analýza: latentní faktor je lineárně spjatý s pozorovanými proměnnými. ◦ Hahaha, smáli jsme se už hodně dávno (omezené rozpětí pozorovaných vs. neomezené rozpětí latentních proměnných). Navíc víme, že je to celé složitější. ◦ Položkou škály depresivity je špatný spánek. Léky zkvalitňující spánek však působí na ostatní indikátory depresivity při retestu. ◦ Vztahy proměnných jsou komplexnější, při jediném měření ale může jít o vhodné zjednodušení. Modely s latentními rysy faktorová analýza ordinální faktorová analýza latent class analysis IRT a Raschův model latentní proměnná (prediktor) intervalová intervalová nominální intervalová manifestní proměnná (závislá) intervalová ordinální nominální, ordinální, intervalová nominální, ordinální vztah lineární komplikovaný ☺ (lineární s probit. SC) lineární logistický Ordinální faktorová analýza Odhad na polychorické korelační matici. ◦ Jaká je korelace dvou spojitých intervalových proměnných, z nichž pozorujeme jen určité „rozmezí“? Latentní proměnná nepredikuje přímo manifestní, ale tzv. „item latent response“. ◦ Ta se pomocí tzv. „skórovací funkce“ manifestuje v ordinálních odpověďových kategoriích. 2PL IRT model s binární odpovědí ekvivalentní nCFA; u delší odpověďové škály jen obdobný. Raschův model Benjamin Wright s fotografií George Rasche Vývoj teorií odpovědi na položku 50. a 60. léta, další rozvoj v 80. letech (počítače). Nezávisle na sobě G. Rasch (dánský matematik), F. M. Lord (psycholog, psychometrik) a P. F. Lazarsfeld (rakouský sociolog). Jde o stochastickou úpravu původně deterministického Guttmanova modelu. ◦ Přelom zejm. Rasch (1960). Řada různých modelů, např.: ◦ počtu parametrů + Raschův model: 1PL–3PL (a 4/5 PL) ◦ binární/ordinální/nominální: GRM, RSM, PCM, GPCM, NRM ◦ jedno- vs. multidimenzionální: kompenzatorní vs. nonkompenzatorní ◦ další rozšíření: IRTree, modely pro „VAŠ“, modely pro ipsativní položky a další s volným přelivem do kognitivního modelování, modely zahrnující čas... ◦ Rasch, Novick, Lord, Andrich, Samejima, Hambleton, De Boeck, van der Linden a další Paul Felix Lazarsfeld (1901–1976) Louis Guttman (1916–1987) Vztah rysu a odpovědi Jak, faktorová analýza, tak CTT předpokládají lineární vztah mezi pozorovaným skóre v testu (položce) a měřenou veličinou. ◦ 𝑋𝑖𝑝 = 𝜏𝑖 + 𝜆𝑖 𝜃 𝑝 + 𝜀𝑖𝑝 To není realistické. ◦ Při určitých konstelací úrovně respondenta a obtížnosti položky to může vést k predikcím mimo možný rozsah pozorovaných skórů. ◦ Predikovaný skór je zpravidla reálné číslo; možné pozorované skóry jsou ale na úrovni položky zpravidla celá čísla (0/1, 0-1-2-3). ◦ V případě binární položky by predikovaný skór z intervalu <0 ; 1> bylo možné chápat jako pravděpodobnost správné odpovědi. V takovém případě by ale neměl být vztah pravděpodobnosti a schopnosti lineární. ◦ Vztah predikovaných hodnot a pravého skóre byl proto řešen dávno před vznikem IRT. Vztah rysu a odpovědi Předpoklady základního Raschova modelu: ◦ Existuje spojitý, intervalový latentní rys, který „způsobuje“ pozorované binární odpovědi. ◦ Tyto odpovědi záleží dále na parametrech položky. ◦ Odpověď lze predikovat prostřednictvím tzv. charakteristické funkce položky. ◦ Pozorované odpovědi jsou navzájem lokálně nezávislé (jsou způsobeny výhradně úrovní latentního rysu, parametry položek a náhodné chyby). ◦ To nemusí být pravda u vícedimenzionálního IRT. Jaký je vztah spojitého intervalového prediktoru a binárné závislé proměnné? ◦ Jakou analýzu byste použili? Vztah rysu a odpovědi Rasch navrhl normálně rozdělenou kumulativní distribuční funkci (tzv. „ogiva“). ◦ Dnes se označuje jako tzv. probit model. ◦ Častěji se používá logit model, který je prakticky identický, ale používá logistickou funkci. ◦ Má řadu výhod, lépe se derivuje, atd. ◦ Φ 𝑥 = 1 2𝑥 ‫׬‬−∞ 𝑥 𝑒 −𝑡2 2 𝑑𝑡 ◦ Φ 𝑥 ∼ 𝑒1,72𝑥 1+𝑒1,72𝑥 = 1 1+𝑒−1,72𝑥 ◦ kde Φ 𝑥 je kumulativní normální distribuce Vztah rysu a odpovědi Funkce, která popisuje pravděpodobnost (správné) odpovědi, se nazývá: ◦ charakteristická křivka položky ◦ item characteristic curve (ICC) ◦ item response function (IRF) ◦ Technicky vzato jde o funkci; křivka je jen její zobrazení. ◦ V případě polytomních IRT modelů se používá ještě označení scoring function. A jednotlivé IRT modely se odlišují právě touto ICC. Charakteristická funkce položky Charakteristická funkce Raschova modelu: 𝑃𝑖 𝜃 = 𝑒 𝜃−𝑏 𝑖 1+𝑒 𝜃−𝑏 𝑖 = 1 1+𝑒− 𝜃−𝑏 𝑖 ◦ 𝜃 – míra latentního rysu daného člověka (správně by měla být notace 𝜃 𝑝, tedy míra rysu pro osobu p, ale zjednodušuji to). ◦ 𝑏𝑖 – tzv. parametr obtížnosti; obtížnost položky i. ◦ 𝑃𝑖 𝜃 – pravděpodobnost správné odpovědi na položku i při úrovni latentního rysu θ. Pravděpodobnost špatné odpovědi je 𝑄𝑖 𝜃 = 1 − 𝑃𝑖 𝜃 . Lze upravit na ln 𝑃 𝑖 𝜃 1−𝑃 𝑖 𝜃 = 𝜃 − 𝑏𝑖. ◦ Interpretace: logaritmus šance (log-odds, viz logistická regrese!) je roven rozdílu schopnosti člověka a obtížnosti položky. Pravděpodobnost není lineární. Log-odds ji linearizuje. 𝜃 − 𝑏𝑖 P -5 0,7% -4,5 1,1% -4 1,8% -3,5 2,9% -3 4,7% -2,5 7,6% -2 11,9% -1,5 18,2% -1 26,9% -0,5 37,8% 0 50,0% 0,5 62,2% 1 73,1% 1,5 81,8% 2 88,1% 2,5 92,4% 3 95,3% 3,5 97,1% 4 98,2% 4,5 98,9% Charakteristická funkce položky 𝜽 − 𝒃𝒊 P -5 0,7% -4,5 1,1% -4 1,8% -3,5 2,9% -3 4,7% -2,5 7,6% -2 11,9% -1,5 18,2% -1 26,9% -0,5 37,8% 0 50,0% 0,5 62,2% 1 73,1% 1,5 81,8% 2 88,1% 2,5 92,4% 3 95,3% 3,5 97,1% 4 98,2% 4,5 98,9% 𝑃𝑖 𝜃 = 𝑒 𝜃−𝑏 𝑖 1 + 𝑒 𝜃−𝑏 𝑖 = 1 1 + 𝑒− 𝜃−𝑏 𝑖 ln 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 = 𝜃 − 𝑏𝑖 Charakteristická funkce položky Stejná logika odhadu lze použít pro skóre celého test. ◦ Vpravo je skór osob/položek jednoduše ln 𝑃 𝑖 𝜃 1−𝑃 𝑖 𝜃 . ◦ Toho využívá tzv. PROX estimator. ◦ Jde o iterativní postup, který updatuje parametry podle algoritmu: ◦ E 𝜃 = 𝑙𝑛 𝑋−min(𝑥) max 𝑥 −𝑋 1 + 𝜎 𝑑𝑖𝑓𝑓 2 2,9 ◦ první část je logaritmus šance, protože jde o podíl správné ku chybné části testu; pod odmocninou je korekce, kde 𝜎 𝑑𝑖𝑓𝑓 2 jde rozptyl obtížností položek, aby to nekonvergovalo k nule. ◦ Iterativně se opakuje nastřídačku pro položky a osoby. RM vs. spojité měření Anička (-2) Béďa (-0,5) Cyril (0) Draha (1,5) W (-1) 0,27 0,62 0,73 0,92 X (0,5) 0,08 0,27 0,38 0,73 Y (2) 0,02 0,08 0,12 0,38 Z (3) 0,01 0,03 0,05 0,18 Máme čtyři položky W-Z a čtyři osoby A-D. Pomocí RM každé byl odhadnut skór (rys, obtížnost). ◦ Nahoře: pravděpodobnost správné odpovědi 𝑃𝑖 𝜃 = 𝑒 𝜃−𝑏 𝑖 1+𝑒 𝜃−𝑏 𝑖 . ◦ Dole: prostý rozdíl 𝜃 − 𝑏𝑖 na spojité intervalové škále. Double cancelation (-!): ◦ (B-W)+(C-X)>(A-X)+(B-Y) = C-W>A-Y ◦ (B-W)-(A-X) = 3; (C-X)-(B-Y) = 2 Další podmínky ◦ 3+2 = 5 = (W-C)-(A-Y) Proč jsme u délky násobili/dělili a zde sčítáme/odčítáme? ☺ Anička (-2) Béďa (-0,5) Cyril (0) Draha (1,5) W (-1) -1 0,5 1 2,5 X (0,5) -2,5 -1 -0,5 1 Y (2) -4 -2,5 -2 -0,5 Z (3) -5 -3,5 -3 -1,5 Charakteristická funkce testu Výhodou Raschova modelu je fakt, že je „plně identifikován“. ◦ Každému hrubému skóre odpovídá právě jeden odhad latentního skóre. Lze proto definovat charakteristickou křivku testu. ◦ test characteristic curve (TCC) 𝑇𝐶𝐶 𝜃 = ෍ 𝑖=1 𝑛 𝐼𝐶𝐶𝑖 𝜃 ◦ Očekávaný hrubý skór podle míry latentního rysu (odhad pravého skóre v CTT). Využívá se při skórování testu. ◦ Součet položek nese „všechny“ informace o latentním rysu. Informační funkce položky Doteď jsme mluvili o vztahu latentního rysu a pravděpodobnosti (správné) odpovědi. Jaká je ale těsnost tohoto vztahu? Odpovědí na tuto otázku je informační funkce položky 𝐼𝑖 𝜃 (item information function/curve). Pro dichotomické pol.: 𝐼𝑖 𝜃 = 𝑃𝑖 ′ 𝜃 2 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ Pro každou úroveň schopnosti jiná. ◦ Pi()… pravděpodobnost správné odpovědi při úrovni  schopnosti respondenta (tzv. pravděpodobnostní funkce, viz modely dříve). ◦ Pi` … první derivace této pravděpodobnosti ◦ 1 − 𝑃𝑖 𝜃 … je pravděpodobnost jiné, než správné odpovědi. ◦ Ve jmenovateli je tedy rozptyl hrubého skóru. Proč? Informační funkce položky Raschův model snadno derivuje. ◦ 𝑃𝑖 ′ 𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ICC Lze tedy zjednodušit: 𝐼𝑖 𝜃 = 𝑃𝑖 𝜃 1 − 𝑃𝑖 𝜃 ◦ Informační funkce je tedy přímo rovna rozptylu predikovaného pravého skóru na položce. ◦ V případě 2PL modelu 𝐼𝑖 𝜃 = 𝑎𝑖 2 𝑃𝑖 𝜃 ሾ ሿ 1 − 𝑃𝑖 𝜃 . Maximum je vždy tam, kde je položka nejstrmější – a to je v bodě obtížnosti položky. ◦ V RM tedy: ◦ 𝐼𝑖 𝜃 = 𝑏𝑖 = 0,5 1 − 0,5 = 0,25. Informační funkce testu Informační funkce testu je součtem informačních funkcí položek: 𝐼 𝜃 = ෍ 𝑖=1 𝑛 𝐼𝑖 𝜃 Informační funkce položek/testu je reciprokou („převrácenou“) funkcí k chybovému rozptylu: 𝜎𝑒,𝜃 2 = 1 𝐼 𝜃 . Z toho důvodu standardní chyba měření je: 𝑆𝐸 ෠𝜃 = 1 𝐼 𝜃 ◦ Tedy čím vyšší informace, tím menší chyba měření. Interval spolehlivosti potom získáme vynásobením kvantilem normálního rozdělení (stejně, jako v CTT): 𝐶𝐼95% ෠𝜃 = 𝜃 ± 𝑧 ∙ 𝑆𝐸෡𝜃 ◦ Jde nicméně o chybu latentního rysu, nikoliv jeho odhadu (CI kolem pravého vs. pozorovaného skóre. Reálně se proto používají různé bootstrapové techniky. Informační funkce testu Reliabilita v IRT Definice reliability je v IRT naprosto stejná, jako v CTT, tedy virtuální korelace paralelních testů. Bohužel je porušen předpoklad homoskedascity, protože každá úroveň rysu má jinou chybu měření. Lepší je tedy o reliabilitě uvažovat jako o rozptylu pozorovaných odhadů vysvětleném latentními rysy. ◦ 𝑟𝑥𝑥´ = 𝜎 𝑇 2 𝜎 𝑋 2 = 𝜎 𝑇 2 𝜎 𝑇 2+𝜎 𝑒 2 = 𝜎 𝑋 2 −𝜎 𝑒 2 𝜎 𝑋 2 = 1 − 𝜎 𝑒 2 𝜎 𝑋 2 Bohužel nemáme 𝜎𝑒 2 . Zde se používá „průměrná“ chyba měření, tzv. root mean-square error (RMSE): 𝜎𝑒 = 𝑅𝑀𝑆𝐸 = σ 𝑝=1 𝑁 𝑆𝐸 𝑝 2 𝑁 Reliabilita v IRT Po dosazení: 𝑟𝑥𝑥´ = 1 − 𝑅𝑀𝑆𝐸2 𝜎 𝑋 2 = 1 − σ 𝑝=1 𝑁 𝑆𝐸 𝑝 2 𝑁 𝜎 𝑋 2 V případě Raschova modelu a tzv. JMLE estimátoru. ◦ Jiné estimátory používají jiné odhady latentních rysů, například EAP (expected aposteriori estimates) atd.; pak se rozptyl těchto odhadů dosazuje za rozptyl pravých 𝜎 𝑇 2 , nikoliv pozorovaných 𝜎 𝑋 2 skórů. Tzv. empirický odhad reliability: za 𝜎 𝑋 2 je dosazen pozorovaný rozptyl latentních rysů. ◦ Většina IRT estimátorů má předpoklad normálního rozdělení, proto se občas používá tzv. marginální odhad reliability, kam se za 𝜎 𝑋 2 (resp. 𝜎 𝑇 2 ) dosazuje apriorní rozptyl, se kterým estimátor počítal, zpravidla 1. Stejně jako jiné odhady vnitřní konzistence je to „spodní mez“ reliability. ◦ Ne vždy! Lokální reliabilita Daniel (1999) navrhl používat tzv. lokální reliabilitu: odpověď na otázku, jaká by byla reliabilita testu, když by pro všechny respondenty/skupiny měřila jako pro daného respondenta/skupinu. Namísto RMSE se do vzorce výše dosadí chyba měření daného respondenta, chyba pro danou úroveň skórů, RMSE dané skupiny atp.: 𝑟 𝑥𝑥′ 𝜃 ∈ 𝑀 = 1 − 𝑅𝑀𝑆𝐸2 𝜃 ∈ 𝑀 𝜎 𝐸 𝜃 2 Celková reliabilita je pak váženým průměrem všech možných lokálních reliabilit (Cígler, 2017☺): ◦ Pro 2 skupiny: 𝑟 𝑥𝑥′ = 𝑎𝑟 𝑎𝑎′+𝑏𝑟 𝑏𝑏′ 𝑎+𝑏 , kde a a b jsou počty respondentů. ◦ Pro N skupin: 𝑟 𝑥𝑥′ = σ 𝑖=1 𝑁 𝑛𝑖 𝑟 𝑖𝑖′ σ 𝑖=1 𝑁 𝑛𝑖 a 𝑟𝑖𝑖′ je reliabilita ve skupině i. Lokální reliabilita Odhad reliability Lze spočítat pro osoby i pro položky. Reliabilita osob záleží na: ◦ rozptylu probandů; ◦ délce testu; ◦ počtu kategorií každé položky (zvyšuje se většinou cca do 6, vyšší počet totiž zpravidla zhoršuje věrohodnost modelu a fit položky); ◦ „sample-item targeting“ – jsou položky vhodně těžké pro daný vzorek? ◦ Je naopak nezávislá na počtu osob. ◦ Kritéria stejná jako v CTT. Reliabilita položek závisí na: ◦ rozptylu obtížnosti položek; ◦ počtu probandů; ◦ „item-sample targeting“. ◦ Je nezávislá na délce testu. ◦ Odpověď na otázku „jak přesně jsme odhadli obtížnosti položek“? ◦ Kritéria výrazně přísnější... u běžných testů chceme alespoň 0,99. Shoda dat s modelem I když si to Linacre a Bond s Foxovou nemyslí ☺ , předpokladem toho, aby Raschův model byl fundamentálním měření, je potřeba, aby dobře popsal data. Respektive aby data dobře vyhovoval Raschovu modelu. Shoda dat na úrovni: ◦ Položky / respondenta ◦ Celého modelu Shoda dat s RM: položky Jak moc dobře pozorovaný pattern odpovědí (1101100100…) odpovídá predikovaným odpovědím (0,98; 0,84; 0,32; …)? Východiskem je tzv. standardizované reziduum respondenta p na položku i (rozdíl predikované pravděpodobnosti a pozorované binární odpovědi, dělené chybou predikce): 𝑧 𝑝𝑖 = 𝑥 𝑝𝑖 − 𝑃𝑝𝑖 𝐼 𝑝𝑖 = 𝑥 𝑝𝑖 − 𝑃𝑝𝑖 𝑃𝑝𝑖 1 − 𝑃𝑝𝑖 Celková chyba v datech lze vyjádřit jako 𝜒𝑖 2 = σ 𝑝=1 𝑁 𝑧 𝑝𝑖 2 , které má chí rozdělení o 𝑁𝑖 počtu stupňů volnosti (počet respondentů, kteří odpovídali na danou položku). RM: Outfit Prvním ukazatelem fitu je tzv. outfit, který se tradičně vyjadřuje dvěma způsoby. Mean-square outfit: celková chyba dělená počtem stupňů volnosti (průměrná hodnota z-standardizovaného rezidua): 𝑢𝑖 = σ 𝑝=1 𝑁 𝑧 𝑝𝑖 2 𝑁 ◦ Optimální fit je 1 (protože SD=1). Vyšší hodnotu značí nižší shodu s daty (underfit), nižší hodnoty pak tzv. guttmanovský patter – vyšší shodu s daty (overfit). Mean-square nám neříká nic o signifikanci. Proto se převádí na tzv. z-standardizovanou hodnotu, tedy z-skór o stejné p-hodnotě jako původní chí s daným počtem stupňů volnosti. ◦ Provádí se buď analyticky, nebo empiricky. ◦ Nula znamená optimální fit, nižší overfit, vyšší underfit; hodnoty mimo rozsah - 1,96–1,96 jsou ukazatelem neshody s daty na hladině p < 0,05. RM: Infit Tím, že outfit zvažuje všechny respondenty/položky stejně, je outfit náchylný na náhodný šťastný tip špatného respondenta, resp. na náhodné selhání dobrého respondenta. Proto se používá infit, kde každý case je vážený hodnotou jeho informační funkce: 𝑣𝑖 = σ 𝑝=1 𝑁 𝑧 𝑝𝑖 2 𝐼 𝑝𝑖 σ 𝑝=1 𝑁 𝐼 𝑝𝑖 = σ 𝑝=1 𝑁 𝑧 𝑝𝑖 2 𝑃𝑝𝑖 1 − 𝑃𝑝𝑖 σ 𝑝=1 𝑁 𝑃𝑝𝑖 1 − 𝑃𝑝𝑖 ◦ Jde tedy o vážený průměr standardizovaného rezidua. Tento mean-square se převádí na z-standardizovanou hodnotu stejně, jako v případě outfitu. Interpretace fitu položky Ukazatel, jak položka/respondent odpovídá Raschovu modelu. ◦ Položky: Odpovídali respondenti na položku dle předpokladu? ◦ Respondenti: Odpovídal respondent na položky dle předpokladu? ◦ Je založená na průměru sumy čtverců standardizovaných reziduí probanda/položky s df=n-1. ◦ Pozor: vysoká hodnota se neintuitivně označuje jako „underfit“, nízká „overfit“! Vysoká hodnota (underfit): respondent/i odpovídal/i více náhodně. ◦ Méně „guttmanovská“ škála, než jsme předpokládali. Nízká hodnota (overfit): respondent/i odpovídal/i méně náhodně. ◦ Více „guttmanovská“ škála, než jsme předpokládali. Fit položek je základem položkové analýzy v RM. Interpretace fitu položky Příklad: ◦ obtížnost položek: snadné ....... střední ........ těžké. ◦ stochastická předpověď (průměrný fit): 111...1101100100...000. ◦ deterministická odpověď (overfit): 111...1111100000...000. ◦ nahodilá odpověď: (underfit): 101...1010101010...010. ◦ šťatný tip (vliv na outfit): 111...1101100100...001. ◦ nepozornost (vliv na outfit): 011...1101100100...000. ◦ náhodná znalost (vliv na infit): 111...1101111100...000. Využití infitu: Korigovaná reliabilita Modelová reliabilita, kterou jsme si ukázali, je „unbiased“ pouze tehdy, pokud model popisuje data dobře. ◦ Například v případě porušení lokální nezávislosti přestává být spodní mezí stejně, jako Cronbachovo alfa. Proto se občas využívá tzv. „real reliability“, která koriguje oproti neshodě s daty funkcí max(1; 𝑣 𝑝), kde 𝑣 𝑝 je infit MNSQ respondenta p: 𝑅𝑀𝑆𝐸 𝑘𝑜𝑟𝑖𝑔. = ෍ 𝑖=1 𝑛 𝜎𝑒 2 𝜃𝑖 max(1; 𝑣𝑖) , ◦ Korigujeme tedy je underfitující respondenty; overfitující fit nezlepšují. ◦ RMSE se dosadí do výpočtu reliability úplně stejně jako u nekorigované rel. Shoda dat s RM: model Často nás ale zajímá, jak data jako celek vyhovovala RM. Výstupem z ML estimátoru je tzv. log-likelihood estimační funkce (alternativně pak suma všech standardizovaných reziduí v modelu). ◦ Ten má přibližně chí rozdělení. Počet stupňů volnosti: 𝑑𝑓 = 𝑁𝑖 𝑁𝑝 − 𝑁𝐴 − 𝑁𝑖 + 𝑁𝑝 − 1 + ෍ 𝑗=1 𝑁 𝑐 𝑁𝑗 − 2 ◦ 𝑁𝑖, 𝑁 𝑝 počet položek, respondentů v modelu; NA – počet chybějících dat. ◦ V závorce počet tzv. „volných“, tj. odhadovaných parametrů. ◦ Ta suma platí pro polytomické položky, v binárním RM je 0. ◦ (𝑁𝑗 je počet odpověďových kategorií v celkem 𝑁𝑐 položkách s různou strukturou). Shoda dat s RM: model Tento výpočet je velmi striktní a stejně jako v CFA je výsledek zpravidla signifikantní. Proto se používají jiné ukazatele fitu: CFI, TLI, RMSEA… Výpočet z log-likelihood funkce je ale zkreslující a vede k odlišně interpertovatelným výsledkům oproti CFA. ◦ Ale používá se (např. Tennant a Pallant, 2012). Proto se ukazatele počítají na základě korelační matice standardizovaných reziduí. ◦ Maydeu-Olivares, Cai a Hernández (2011) a jejich vytuněné M2 a M2* ukazatele (Maydeu-Olivares a Joe, 2006). A další analýzy nad reziduální korelační maticí (PCA…). Let‘s go practice! https://www.youtube.com/ watch?v=O6xH2lKbWgc prof. Linacre se srnečkem Zadání úkolu Stáhněte si data: https://is.muni.cz/auth/el/1423/jaro2018/PSY028_E/um/irt/blok_2/ ◦ Jde o položky z testu IDS, subtest verbální konceptualizace (Gc z CHC). ◦ Položky jsou předskórované. Subsetujte prvních 100 respondentů. Odhadněte parametry Rascha modelu non-iterativním PROX estimátoru: https://www.rasch.org/rmt/rmt83g.htm (poslední kap.). ◦ Vypořádejte se s extrémními skóry. ◦ Bodové odhady, chyby odhadu, 95% CI. ◦ Transformujte parametry osob na IQ škálu. Odhadněte: ◦ Reliabilitu položek/osob a korigovanou reliabilitu položek/osob. ◦ Outfit, infit (MNSQ, z-std) pro položky/osoby. ◦ Shodu modelu s daty (za použití χ2 rozložení stand. reziduí).