Přednáška 13: Shoda posuzovatelů 17. 12. 2024 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler | cigler@fss.muni.cz Posuzování/hodnocení v psychologii Posuzovací škály ◦ Intenzita prožitků, příznaků nemoci, ... Pozorování a observační studie ◦ Bylo / nebylo pozorováno nějaké chování? Do jaké kategorie zařadit to, co jsem pozoroval(a)? Psychologická diagnostika ◦ Diagnostický nález, skóry z checklistu, ... Hodnocení výkonu ◦ V rámci školní třídy, v testu, pořadí uchazečů při náboru zaměstnanců, ... Kódování v kvalitativním výzkumu ... napadne vás ještě nějaký příklad? Vřelost 1 – Výrazný nedostatek lásky ◦ Takto jsou hodnoceni rodiče respondenta, kteří nejenže nebyli oporou jeden druhému, ale odmítali vzájemně spolupracovat nebo spolu soupeřili, nechovali se k sobě nikterak láskyplně či ohleduplně. Takto se posuzují vztahy charakteristické přítomností hněvu a nepřátelských projevů nebo vztahy, v nichž se rodiče k sobě chovali chladně a nezúčastněně. Toto hodnocení se využívá také v případech, kdy jeden z rodičů druhého psychicky či fyzicky týral či zneužíval. Manželství, která byla ukončena rozvodem, se hodnotí v rozmezí bodů 1–3. 3 – Nedostatek vřelosti ◦ Vztah se vyznačuje mírnou, nicméně neadekvátní nebo nekonzistentní oporou. Potřeby jednoho nebo obou rodičů bývají občas uspokojeny, většinou jsou však přehlíženy. Tyto páry se vyznačují vzájemnou lhostejností, každý z partnerů žil víceméně vlastním životem, které se prolínaly pouze sporadicky. Toto hodnocení se užívá i pro páry, které spolu sice žily aktivně, ale jejich vzájemná interakce byla charakterizována spíše negativně, jednali spolu například s neúctou a s nedostatečným poskytováním opory. 5 – Ani neláskyplný, ani aktivně láskyplný ◦ Respondent hodnotí vztah svých rodičů jako „dobrý“ či „láskyplný“, ale neuvádí detaily, které by tento pohled potvrdily či vyvrátily. Pokud je k dispozici více detailů, lze říci, že rodiče poskytovali adekvátní emocionální oporu jeden druhému. Přestože nijak výrazně nerozuměli potřebám toho druhého, snažili se být si ve většině oblastí soužití nápomocni. ◦ Někteří respondenti se mohou při popisu soustředit na dovednosti rodičů v oblasti výchovy, a výzkumník/tazatel tak získává dojem, že manželství rodičů hrálo sekundární roli oproti výchově dětí, která byla pro pár prvořadá. Toto hodnocení také slouží jako průměrné hodnocení, pokud se manželé v minulosti nechovali k sobě láskyplně, ale tyto negativní epizody byly ve vztahu vystřídány či vynahrazeny věrohodnými láskyplnými či obětavými činy. 7 – Láskyplný ◦ Přestože se ve vztahu mohly objevovat problémy, rodiče se vůči sobě projevovali láskyplným a chápajícím způsobem. Lze vytušit, že vztah byl plný důvěry a opory. Hodnocení 7 je odpovídající, pokud respondent souvisle a srdečně hovoří o vztahu rodičů a udává, že se k sobě pár choval s láskou, ale současně to dokládá menším množstvím specifických detailů. 9 – Velmi láskyplný ◦ Tito rodiče se k sobě aktivně chovali láskyplně a s vzájemnou náklonností a očividně se cítili dobře a užívali si vzájemnou společnost. Respondent uvádí konkrétní příklady, jak si byli jeho rodiče oporou sobě navzájem, partnersky, tak svým dětem jako rodiče. Poskytovali si navzájem přátelství a útěchu. Není nutné, aby byl vztah popisován jako absolutně perfektní, pro toto hodnocení se rozhodujeme tehdy, existují-li silné důkazy, že se rodiče navzájem milovali, respektovali a podporovali jeden druhého. Proč se zabývat shodou? Kdo může zaručit „objektivitu“ posuzování/hodnocení? ◦ I pokud jsou hodnotící kritéria jasně definována, jsou stejně chápána a používána? Ověření reliability výzkumné/diagnostické metody. ◦ Hodnocení na posuzovacích škálách, pozorování chování, hodnocení výkonu ◦ Administrace diagnostických metod – vliv administrátora Zajištění interní validity výzkumných designů. ◦ Shoda posuzovatelů, pozorovacích schémat atp. Inter-rater/inter-coder/inter-observer... ... reliability/agreement/concordance. Co dělat s (ne)shodou? Shodu můžeme „vynutit“… ◦ Např. použít průměrné nebo konsenzuální hodnocení. ◦ Tím se ale připravujeme o informace. ... nebo ji můžeme nějak kvantifikovat a pracovat s ní. ◦ Míra (ne)shody je důležitý a interpretovatelný údaj. ◦ Sděluje nám důležité informace o povaze měřeného konstruktu. Po kvantifikaci můžeme (ne)shodu efektivněji studovat ◦ Jak velké jsou mezi hodnotiteli rozdíly? ◦ Jsou tyto rozdíly náhodné nebo systematické? Není to buď a nebo (např. prvně kvantifikuji, pak shodu „vynutím“). Dvě hlavní použití míry (ne)shody1 Lze několik různých hodnocení „redukovat“ na jediný údaj? ◦ Kolik spolu mají hodnocení „společného“, jde stále o tu stejnou proměnnou? Jaká je reliabilita takovéto redukce v případě... ◦ ... průměrného/výsledného hodnocení několika hodnotiteli? ◦ ... hodnocení jedním hodnotitelem? 1 dle Cíglera a Širůčka, nejde o autoritativní zdroj Proč je o tom samostatná přednáška? 1. Typicky zobecňujeme na všechny potenciální hodnotitele. ◦ Tedy „absolutní D-studie“ z pohledu GT, zatímco běžné uvažování o „reliabilitě“ je zpravidla „relativní D-studie“. 2. Velmi často nominální nebo ordinální proměnné. 3. Přítomné i v kvalitativním výzkumu, samostatné téma. Dva hlavní typy neshody 1. Nesystematický rozdíl mezi hodnotiteli. ◦ Náhodný rozdíl, neshoda „v pořadí“. ◦ GT: Relativní D-studie 𝑝 × 𝑅 (jediná chybová komponenta 𝜎 𝑝𝑟 2 ) 2. Pouze systematický rozdíl mezi hodnotiteli. ◦ Rozdíl v poměru, průměru... neshoda „v náročnosti/přísnosti“. ◦ GT: Absolutní D-studie 𝑝: 𝑅 (jediná chybová komponenta 𝜎𝑟 2). Zpravidla ale pracujeme s kombinací obou typů neshody. ◦ Tedy neshoda v pořadí a zároveň rozdíl v přísnosti. ◦ GT: Absolutní D-studie 𝑝 × 𝑅 (chybové komponenty 𝜎𝑟 2 + 𝜎 𝑝𝑟 2 ). Nominální proměnné Systematický rozdíl ◦ Rozdíl v poměru P:T. ◦ Jeden z psychologů může dávat více závěrů „pilot“ než druhý. Nesystematický rozdíl ◦ Oba psychologové mají tento poměr stejný, ale neshodnou se v určitém procentu % případů. Při náboru do armády posuzují dva psychologové, jestli se rekruti hodí spíš na pilota (P) nebo na tankistu (T). Nominální proměnné SYSTEMATICKÁ (κ = 0,6, shoda 80 %) B A 30 0 30 20 50 70 50 50 100 NESYSTEMATICKÁ (κ = 0,6, shoda 80 %) B A 40 10 50 10 40 50 50 50 100 SMÍŠENÁ (κ = 0,4, shoda 70 %) B A 25 5 30 25 45 70 50 50 100 (Alespoň) ordinální proměnné Systematický rozdíl ◦ Rozdíl v průměru. ◦ Jeden z psychologů je „přísnější“ a hodnotí každého méně body. Nesystematický rozdíl ◦ Oba psychologové se neshodnou na tom, kdo je nejlepší, kdo druhý nejlepší, třetí nejlepší, atd. Během náboru zaměstnanců mají dva psychologové za úkol obodovat každého uchazeče na stupnici 1–3 (přijat, náhradník, nepřijat). Jaké otázky si klást? Kdo se má shodovat s kým? ◦ Shoda administrátorů: Vede individuální vyšetření různými administrátory ke stejným výsledkům? (WISC...) ◦ Shoda hodnotitelů: Ohodnotí již získaný protokol různí lidé stejně? (ROR; kvalitativní výzkum). ◦ Intra-rater reliabilita: Obdobné otázky, ale pro jednoho administrátora/hodnotitele v různých časech. Kolik bylo hodnotitelů? ◦ Dva (a nebo jeden dvakrát). ◦ Tři a více (nebo jeden alespoň třikrát). Typy proměnných a související hypotézy Nominální nebo ordinální ◦ Jaká je absolutní/relativní míra shody 2 nebo více osob? Ordinální ◦ Jaká je míra shody v pořadí hodnocených osob? ◦ Jaká je míra shody ve střední hodnotě? ◦ Celková míra shody (pořadí i střední hodnota dohromady). ◦ Absolutní míra shody (jako by šlo o nominální proměnnou). Intervalová/poměrová ◦ Jaká je míra shody v pořadí hodnocených osob? ◦ Jaká je míra shody ve střední hodnotě? ◦ Celková shoda (pořadí i střední hodnoty dohromady). ◦ V psychologické diagnostice je typickým postupem ověření shody v případě položek nominálními či ordinálními statistikami (analogie korigovaných korelací se škálou) a pro celkové skóry intervalovými statistikami. Statistiky pro odhad shody posuzovatelů Nominální proměnné Jakým nejjednodušším způsobem lze vyjádřit shodu nominálních proměnných? Ve které z tabulek je shoda vyšší? Srovnání tabulek: ◦ shoda nahoře: 92 %; ◦ shoda dole: 92 %. Procenta nejsou vypovídajícím ukazatelem shody hodnotitelů! ◦ Masivní vliv prevalence daného jevu. 0 1 SUM 0 42 4 46 1 4 50 54 SUM 46 54 100 0 1 SUM 0 1 3 4 1 5 91 96 SUM 6 94 100 Nominální proměnné (n = 2) Cohenovo kappa ◦ Kolikrát je shoda hodnotitelů vyšší než náhodná shoda? 𝜅 = 𝑃𝑜 − 𝑃𝑒 1 − 𝑃𝑒 ◦ 𝑃𝑜 = pozorovaná shoda hodnocení ◦ 𝑃𝑒 = shoda hodnocení očekávaná na základě prosté náhody Nominální proměnné (n = 2) 𝜅 = 𝑃𝑜 − 𝑃𝑒 1 − 𝑃𝑒 Pozorovaná shoda hodnocení: ◦ 𝑃𝑜 = 35+49 100 = 0,84 Očekávaná shoda hodnocení na základě náhody: ◦ 𝑃𝑒 = 35+3 100 ∙ 35+13 100 + 13+49 100 ∙ 3+49 100 = 0,505 ◦ V případě, že by oba odpovídali zcela nezávisle na sobě, shodli by se v 50,5 % případů. Kohenovo kappa: 𝜅 = 𝑃 𝑜−𝑃𝑒 1−𝑃𝑒 = 0,84 −0,505 1−0,505 = 0,677 Kritika za příliš silnou penalizaci 𝑃𝑒 (Grant et al., 2017). 0 1 SUM 0 35 13 48 1 3 49 52 SUM 38 62 100 Nominální proměnné (n = 2) Cohenovo kappa 𝜅 = 𝑃𝑜 − 𝑃𝑒 1 − 𝑃𝑒 = 0,84 − 0,505 1 − 0,505 = 0,677 Interpretace: Podíl nárůstu shody oproti náhodné shodě činí 0,68 % maximálního možného nárůstu. Cohenovo kappa nabývá hodnot mezi -1 a 1. ◦ Interpretace vzdáleně podobná korelaci, ale měřítko je jiné. ◦ Více k interpretaci: Warrens, M. J. (2015). Five Ways to Look at Cohen's Kappa. Journal of Psychology & Psychotherapy, 5(4). https://doi.org/10.4172/2161-0487.1000197 Proč není dobré používat procentuální shodu? 0 1 SUM 0 42 4 46 1 4 50 54 SUM 46 54 100 0 1 SUM 0 1 3 4 1 5 91 96 SUM 6 94 100 𝑃𝑜 = 0,920 𝑃𝑒 = 0,503 𝜅 = 0,839 𝑃𝑜 = 0,920 𝑃𝑒 = 0,905 𝜅 = 0,160 Použití % shody je téměř vždy špatně. Zpravidla nadhodnocuje skutečnou míru shody! Nominální proměnné (n > 2) Cohenovo kappa je určeno jen pro dva hodnotitele. Pro n hodnotitelů je zobecněním Fleissovo kappa. Stejná logika a interpretace, pouze složitější výpočet. ◦ Jednoduše jen multidimenzionální kontingenční tabulka. ◦ Může být výpočetně náročnější; důležitá je volba efektivního algoritmu. Ordinální proměnné Lze do jisté míry použít běžné statistiky, které už znáte: Shoda středních hodnot (přísnost hodnotitelů): ◦ 2 hodnotitelé: Mann-Whitney („neparametrický t-test“). ◦ N hodnotitelů: Kruskal-Wallis („neparametrická ANOVA“). Shoda pořadí: ◦ 2 hodnotitelé: Běžná pořadová korelace (Spearman, Kendall) pro shodu pořadí. ◦ N hodnotitelů: Kendallův koeficient konkordance (W) – viz dále ...ale máme k dispozici lepší nástroje ☺ Ordinální proměnné (n=2) Můžeme k nim přistupovat jako k nominálním proměnným, ale výsledkem je obvykle podhodnocení shody Řešením je vážená Cohenova kappa (weighted kappa). Neshody jsou váženy různým způsobem – čím dále od diagonály, tím jde o větší neshodu ◦ Jak vážit? Více možností ◦ lineární váhy: vzdálenost od diagonály ◦ kvadratické váhy: (vzdálenost od diagonály)2 ◦ vlastní váhy dle účelu shoda hodnotitel A 1 2 3 hodnotitelB 1 15 12 1 2 9 23 5 3 0 8 17 Ordinální proměnné (n=2) Běžná (kategorická) kappa: 𝜅 = 0,401. Ordinální kappa (lineární váhy): 𝜅 𝑤𝑙𝑖𝑛 = 0,502. Ordinální kappa (kvadratické váhy): 𝜅 𝑤𝑞𝑢𝑎𝑑 = 0,620. ◦ Asi nejčastější případ. ◦ Vzdálenost je v řádku i sloupci... proto na druhou. Matice vah ale může být libovolná. ◦ Např. i stejné váhy pro různá pole. shoda hodnotitel A 1 2 3 hodnotitelB 1 15 12 1 2 9 23 5 3 0 8 17 kvadr. váhy hodnotitel A 1 2 3 hodnotitelB 1 0 1 4 2 1 0 1 3 4 1 0 lineární váhy hodnotitel A 1 2 3 hodnotitelB 1 0 1 2 2 1 0 1 3 2 1 0 Ordinální proměnné (n>2) Vážená Fleissova kappa ◦ Kombinace Fleissovy kappy a vážené Cohenovy kappy ◦ Bere v potaz shodu pořadí i středních hodnot Shoda pořadí: Kendallův koeficient konkordance (W) ◦ Odpovídá na otázku, nakolik hodnotitelé udávají stejné pořadí. ◦ Analogie Spearmanovy pořadové korelace pro více hodnotitelů. ◦ 𝑊 = ഥ𝜌 𝑘−1 +1 𝑘 , kde ҧ𝜌 je průměrná Spearmanova korelace napříč všemi páry hodnotitelů a 𝑘 je počet hodnotitelů. ◦ Reálně se ale používá trochu jiný, efektivnější výpočet. ◦ Interpretace: „Průměrná Spearmanova korelace napříč páry hodnocení.“ Intervalové proměnné Opět lze do jisté míry použít běžné statistiky. Shoda průměrů (přísnost hodnotitelů): ◦ 2 hodnotitelé: t-test ◦ N hodnotitelů: one-way ANOVA Shoda pořadí: ◦ 2 hodnotitelé: Pearsonova korelace ◦ N hodnotitelů: Cronbachova alfa ... ale máme k dispozici lepší nástroje ☺ (ano, už zase...) Intervalové proměnné Teorie zobecnitelnosti ☺ Pro zjednodušení jsou definovány 2×3 základní typy intra-class korelací, které jsou konkrétními speciálními případy teorie zobecnitelnosti. ◦ Historicky ale starší přístup předcházející GT (Fisher, zřejmě 1925). Intra-class (vnitrodřídní) korelace: Jak moc se podobají hodnoty v rámci stejných tříd? ◦ Vnitrotřídní korelace. Inter-class korelace: Jak moc se podobají hodnoty napříč třídami? ◦ Příkladem je Pearsonova korelace. ICC srovnávají variabilitu pozorování uvnitř třídy (různí hodnotitelé „uvnitř“ respondenta) vůči variabilitě napříč třídami (respondentů). Intra-class / vnitrotřídní korelace (ICC) One key difference between the two statistics is that in the ICC, the data are centered and scaled using a pooled mean and standard deviation, whereas in the Pearson correlation, each variable is centered and scaled by its own mean and standard deviation. This pooled scaling for the ICC makes sense because all measurements are of the same quantity (albeit on units in different groups). For example, in a paired data set where each "pair" is a single measurement made for each of two units (e.g., weighing each twin in a pair of identical twins) rather than two different measurements for a single unit (e.g., measuring height and weight for each individual), the ICC is a more natural measure of association than Pearson's correlation. Popis originální definice ICC podle Fishera (Wikipedie) Intra-class / vnitrotřídní korelace https://en.wikipedia.org/wiki/Intraclass_correlation Intra-class / vnitrotřídní korelace (ICC) PEARSONOVA KORELACE VNITROTŘÍDNÍ KORELACE Intra-class / vnitrotřídní korelace Dva krát tři typy / modely (proč modely?) podle Shrouta a Fleisse (1979): ICC1: každý subjekt je hodnocen stejným počtem různých náhodných hodnotitelů, kteří jsou ale pokaždé jiní. ◦ Hodnotitelé jsou striktně paralelními a pro každé měření znovu a náhodně losovanými testy. ICC2: každý subjekt je hodnocena stejnými náhodnými hodnotiteli, ti jsou pokaždé stejní. ◦ Zobecňujeme na všechny hodnotitele, absolutní D-studie. ◦ Typicky je tohle to, co chcete. ICC3: každý subjekt je hodnocen stejnými nenáhodných hodnotiteli. ◦ Zobecňujeme pouze na daný vzorek hodnotitelů, relativní D-studie. Doporučuji (včetně SPSS notace): https://en.wikipedia.org/wiki/Intraclass_correlation Intra-class / vnitrotřídní korelace Tyto tři modely se dále dělí podle toho, jestli reálně dochází k: ◦ Udělení jednoho hodnocení jedním hodnotitelem: ICC(x, 1) ◦ Reliabilita jednoho posuzovatele. ◦ Udělení průměrného hodnocení od všech hodnotitelů: ICC(x, k). ◦ Kde k je počet hodnotitelů; například ICC(2, 3) pro ICC II. typu a 3 hodnotitele. ◦ Reliabilita průměru posuzovatelů. ICC(3, k) je shodná s Cronbachovou alfou. ◦ Relativní D-studie napříč všemi položkami, které jsou „fixed“. Odhad s pomocí ANOVA nebo smíšeného (mixed) lineárního modelu. Vnitrotřídní korelace pro P×I design Shrout a Fleiss (nejběžněji používané) McGraw a Wong (občasně používané) GT design ICC(1,1) One-way random, single score ICC(1) I:p (jediná faseta plus error, Ne=1) ICC(2,1) Two-way random, single score ICC(A,1) p×I (absolutní, Ni = 1) ICC(3,1) Two-way mixed, single score ICC(C,1) p×I (relativní, Ni = 1) ICC(1,k) One-way random, average score ICC(k) I:p (jediná faseta plus error, Ne=k) ICC(2,k) Two-way random, average score ICC(A,k) p×I (absolutní, Ni = k) ICC(3,k) = α Two-way mixed, average score ICC(C,k) p×I (relativní, Ni = k) A=agreement, C=consistency Krippendorfova alfa Zobecnění konceptu klasického koeficientu alfa (např. Cronbachovy). Cronbachova alfa: 𝛼 = 1 − chybový rozptyl celkový rozptyl ◦ (plus nějaké korekce na počet stupňů volnosti) Krippendrofova alfa: α = 1 − pozorovaná neshoda očekávaná neshoda ~1 − rozdílnost v hodnocení subjektů rozdílnost subjektů + rozdílnost v hodnocení subjektů Použitelné pro nominální, ordinální i intervalové proměnné a libovolný počet hodnotitelů. ◦ Jen se různým způsobem vyjádří pozorovaná a očekávaná neshoda. ◦ Díky tomu stejný význam napříč různými typy proměnných, koeficienty lze částečně srovnávat. ◦ Použitelné i v případě chybějících dat. Kde začít? Software SPSS: scale (ICC), crosstabs (kappa) a pluginy. R: zejm. balíčky irr, raters, concord, psych. JASP: modul reliability (ICC, kappa) JAMOVI: modul SimplyAgree Reálně existuje mnohem větší množství dalších koeficientů. ◦ Je v tom celkově zmatek. ◦ Pokusil jsem se představit ty hlavní a nejčastěji používané. Kazuistika: Přijímací zkoušky do NMGR psychologie FSS během COVIDu Cígler, H., Ježek, S., Širůček, J., & Lacinová, L. (2022). Hodnocení bakalářských prací jako přijímací kritérium do navazujícího magisterského studia: Psychometrická kazuistika. Studia Paedagogica, 1(93–124). https://doi.org/10.5817/SP2022-1-4 Odkazy: ◦ Popularizace: https://psych.fss.muni.cz/cosedeje/aktuality/prijimaci-zkouska-hodnoceni-bp ◦ Data: https://doi.org/10.17605/OSF.IO/QX5U7