U|\| T Katedra l\l í psychologie FSS Metaanalýza Zobecnitelnost výzkumu Přednáška 2 | 25. 9. 2023 PSYn4790 | Psycho metrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler ciRler@fss.muni.cz Obsah přednášky Systematická review a meta-analýza. Replikovatelnost a zobecnitelnost (psychologického) výzkumu. ° Se zaměřením na psychometrické aspekty. 0 Replikační krize. Doporučení pro zvýšení replikovatelnosti a zobecnitelnosti. Testování statistických hypotéz Žáky (N = 60) jsme rozdělili náhodně do dvou skupin. ° Skupina A (n = 30) byla vyučována tradičně, skupina B (n = 30) experimentálně. Po ukončení experimentu byly znalosti žáků ve skupině B (M = 0,7; SD = 1) vyšší než ve skupině A (M = 0; SD = 1). Rozdíl byl statisticky významný, t(58) = 2,71, p = 0,009. ° 95% interval spolehlivosti pro rozdíl je 95%C7 = [0,183—1,217]. Jaká je korektní interpretace statistického testu? Jaké jsou předpoklady tohoto závěru? Do jaké míry lze výsledek zobecnit? „No isolated experiment, however significant in itself can suffice for the experimental demonstration of any natural phenomenon/' FISHER (1971, s. 13) :isher, R. (1971). The Design of Experiments. Hafner Publishing Company. 1st ed. 1935. Meta-analýza Systematická review Meta-analýza „Věda má kumulativní povahu, ke studiím však přistupujeme nikoli jako jedné z mnoha, ale izolovaně, stojícími o sobě/' 0 (Chalmers, cit. dle Borenstein et alv 2009) Tradiční přístup: Narativní review 0 Expert shrne poznatky k danému tématu a dojde k závěru. 0 Subjektivita ve všech aspektech review. 0 Proces rozhodování není popsán (není repliko vate Iný). ° Omezení při velkém množství zdrojů. 0 Nedostatečné narativní postižení variability velikostí účinku. ° Narativní review je typicky součástí úvodu k empirickým článkům, DP... Meta-analýza Od cca 90. let přechod k meta-analýze a systematické review. ° Proces systematického vyhledávání, hodnocení a následné syntézy dat z velkého počtu zdrojů. Systematická review. ° Jasně definovaná kritéria pro volbu studií a transparentní popis. Volba kritérií stále zahrnuje určitou míru subjektivity. ° Obvykle zahrnuje meta-analýzu. ° Výběr studií by měl být rep li kováte Iný. Meta-analýza. ° Statistická syntéza předchozího výzkumu (ale existuje i „qualitative meta-analysis"). ° Význam té které studie je dán podle vnějších (matematických) pravidel. ° Cílem je odhad „souhrnné velikosti efektu". Ve skutečnosti existuje velké množství designů souhrnně řazených pod „systematickou review". Label Description Critical review Aims to demonstrate writer has extensively researched literature and critically evaluated its quality. Goes beyond mere description to include degree of analysis and conceptual innovation. Typically results in hypothesis or model Literature review Generic term: published materials that provide examination of recent or current literature. Can cover wide range of subjects at various levels of completeness and comprehensiveness. May include research findings Mapping review/ systematic map Map out and categorize existing literature from which to commission further reviews and/or primary research by identifying gaps in research literature Meta-analysis Technique that statistically combines the results of quantitative studies to provide a more precise effect of the results Mixed studies review/mixed methods review Refers to any combination of methods where one significant component is a literature review (usually systematic). Within a review context it refers to a combination of review approaches for example combining quantitative with qualitative research or outcome with process studies Overview Generic term: summary of the [medical] literature that attempts to survey the literature and describe its characteristics Qualitative systematic review/ /qualitative evidence synthesis Method for integrating or comparing the findings from qualitative studies. It looks for 'themes' or 'constructs' that lie in or across individual qualitative studies Rapid review Assessment of what is already known about a policy or practice issue, by using systematic review methods to search and critically appraise existing research Scoping review Preliminary assessment of potential size and scope of available research literature. Aims to identify nature and extent of research evidence (usually including ongoing research) State-of-the-art review Tend to address more current matters in contrast to other combined retrospective and current approaches. May offer new perspectives on issue or point out area for further research Systematic review Seeks to systematically search for, appraise and synthesis research evidence, often adhering to guidelines on the conduct of a review Systematic search and review Combines strengths of critical review with a comprehensive search process. Typically addresses broad questions to produce 'best evidence synthesis' Systematized review Attempt to include elements of systematic review process while stopping short of systematic review. Typically conducted as postgraduate student assignment Umbrella review Specifically refers to review compiling evidence from multiple reviews into one accessible and usable document. Focuses on broad condition or problem for which there are competing interventions and highlights reviews that address these interventions and their results Grant, M.J., & Booth, A. (2009). A typology of reviews: an analysis of 14 review types and associated methodologies. Health Information and Libraries Journal, 26(2), 91-108. Pyramida evidence (Forrest a Miller) Levels of Evidence Clinical Practice Guidelines Meta-Analysis Systematic Reviews Secondary, pre-appraised, or filtered Studies Experimental I Primary I Studies Hon- Experimental [ Observational 1 Studies No design Not involved w/ humans Ale častá kritika, mj.: ° přírodní vědy (medicína) ° zanedbává kvalitu studií. ° zanedbává kvalitu meta-analýz ° zanedbává kvalitu zdrojových studií ° zanedbává heterogenitu efektů zanednává zobecnitelnost (relevanci) ©2016 Forrest & Miller, EBOM in Action: Developing Competence in EB Practice Meta-analýza: Pojmy Velikost účinku (Effect size) 0 Souhrnný efekt (summary effect) - vážený průměr velikostí účinku dle stanovených pravidel. 0 Jde vlastně o odhad „skutečného efektu" (true effect). Přesnost souhrnného efektu: závisí na celkové N. Váha dílčích studií: odvozené z n dané studie. Homogenita/heterogenita: Míra konzistence napříč studiemi. Signifikance souhrnného efektu: často i grafická interpretace. ° Zpravidla intervaly spolehlivosti. Meta-analýza: Příklad Vaccines are not associated with autism: An evidence-based meta-analysis of case-control and cohort studies Luke E. Taylor, Amy L Swerdfeger, Guy D. Eslick The Whiteley-Martin Research Centre. Discipline of Surgery. The University of Sydney. Nepean Hospital Level 3, Clinical Building, PO Box 63, Penrith 2751, NSW. Australia Statistics for each study Odds Lower Upper Odds ratio and 95% ci ABSTRACT There has been enormous debate regarding the possibility of a link between childhood vaccinations and the subsequent development of autism. This has in recent times become a major public health issue with vaccine preventable diseases increasing in the community due to the fear of a'link" between vaccinations and autism. We performed a meta-analysis to summarise available evidence from case-control and cohort studies on this topic (MEDLINE, PubMed, EMBASE, Google Scholar up to April, 2014). Eligible studies assessed the relationship between vaccine administration and the subsequent development of autism or autism spectrum disorders (ASD). Two reviewers extracted data on study characteristics, methods, and outcomes. Disagreement was resolved by consensus with another author. Five cohort studies involving 1,256,407 children, and five case-control studies involving 9,920 children were included in this analysis. The cohort data revealed no relationship between vaccination and autism (OR: 0.99; 95% □: 0.92 to 1.06] or ASD (OR: 0.91; 95% CI: 0.68 to 1.20). nor was there a relationship between autism and MMR (OR: 0.84; 95% CI: 0.70 to 1.01),orthimerosal (OR: 1.00: 95% CI: 0.77 to 1.31). or mercury (Hg) (OR: 1.00; 95% CI: 0.93 to 1.07). Similarly the case-control data found no evidence for increased risk of developing autism or ASD following MMR, Hg, or thimerosal exposure when grouped by condition (OR: 0.90, 95% CI: 0.S3 to 0.98; p = 0.02) or grouped by exposure type (OR: 0.85, 95% CI: 0.76 to 0.95; p =0.01). Findings of this meta-analysis suggest that vaccinations are not associated with the development of autism or autism spectrum disorder. Furthermore, the components of the vaccines (thimerosal or mercury) or multiple vaccines (MMR) are not associated with the development of autism or autism spectrum disorder. © 2014 Elsevier Ltd. All rights reserved. Madsenetal.(20O2) ltedsenetal.(2002)a Vetstraeteneta!. (2003) Mid, etal. (2003) Hviid, rial. (2003) a Andrews etal. (2004) Uchiyama, Kurosawa, & Inaba (2007) ratio limit limit p-Value 0.92 0.68 1.24 0.59 0.83 0.65 1.06 0.14 1.00 0.92 1.09 1.00 0.85 0.60 1.20 0.36 1.12 0.88 1.43 0.36 0.99 0.88 1.12 0.87 0.62 0.32 1.20 0.15 0.98 0.92 1.04 0.53 0.1 0.2 Fig. 2. Combined estimate for vaccines and autism or ASD. 0.5 1 2 Taylor, L.E., Swerdfeger, A.L, & Eslick, G.D. (2014). Vaccines are not associated with autism: an evidence-based meta-analysis of case-control and cohort studies. Vaccine 32(29). 3623-9. doi: Meta-analýza: Příklad Vaccines are not associated with autism: An evidence-based Luke E. Taylor, Amy L. Swerdfeger, Guy D. Eslick* Vaccine Tjpe The Wii iteley-Martii] Research Centre, Discipline of Surgery, The University of Sydney Clinical Building, PO Box 63, Penrith 2751, NSW. Australia ABSTRACT There has been enormous debate regarding the possibility of a link between childhood vaccination the subsequent development of autism. This has in recent times become a major public health issue vaccine preventable diseases increasing in the community due to the fear of a 'link" between vaccina and autism. We performed a meta-analysis to summarise available evidence from case-control and c studies on this topic (MEDLINE, PubMed, EMBASE, Google Scholar up to April, 2014). Eligible st assessed the relationship between vaccine administration and the subsequent development of atiti: autism spectrum disorders (ASD). Two reviewers extracted data on study characteristics, method; outcomes. Disagreement was resolved by consensus with another author. Five cohort studies invo 1,256,407 children, and five case-control studies involving 9,920 children were included in this ana The cohort data revealed no relationship between vaccination and autism (OR: 0.99; 95% □: 0.92 to or ASD (OR: 0.91; 95% CI: 0.6S to 1.20). nor was there a relationship between autism and MMR (OR: 95% a: 0.70 to 1.01). or thimerosal (OR: 1.00; 95% CI: 0.77 to 1.31). or mercury (Hg) (OR: 1.00; 9= 0.93 to 1.07). Similarly the case-control data found no evidence for increased risk of developing ai or ASD following MMR, Hg, or thimerosal exposure when grouped by condition (OR: 0.90, 95% CI: to 0.9S; p = 0.02) or grouped by exposure type (OR: 0.S5, 95% CI: 0.76 to 0.95; p =0.01). Findings o meta-analysis suggest that vaccinations are not associated with the development of autism or ai spectrum disorder. Furthermore, the components of the vaccines (thimerosal or mercury) or mu vaccines (MMR) are not associated with the development of autism or autism spectrum disorder. © 2014 Elsevier Ltd. All rights reservei Statistics for each study Vaccine Type Cdds Lower Upper ratio limit limit p-Value H9 Verstraeten et al. (2003) 1.00 0.92 1.09 1.00 Hg Andrews et al. (2004) 0.99 0.88 1.12 0.87 Hg 1.00 0.93 1.07 0.92 MJR tods en et al. (2002) 0.92 0.68 1.24 0.59 MJR Madsenetal.(2002)a 0.83 0.65 1.06 0.14 MJR Uchiyama, Kurosawa, & Inaba (2007) 0.62 0.32 1.20 0.15 MvR 0.84 0.70 1.01 0.07 Thimerosal H\iid,eta1.(2003) 0.85 0.60 1.20 0.36 Thimerosal Hviid, etal.(2003)a 1.12 0.88 1.43 0.36 Thimerosal 1.00 0.77 1.31 0.97 Odds ratio and 95% CI 1 0.1 0.2 0.5 1 10 Fig. 4. Pooled estimate for mercury (Hg), MMR vaccines, and thirmerosal. Taylor, L.E., Swerdfeger, A.L, & Eslick, G.D. (2014). Vaccines are not associated with autism: an evidence-based meta-analysis of case-control and cohort studies. Vaccine 32(29), 3623-9. doi: CBT Mixed: PTSD Symptoms Standardized Mean Difference and 95% CI 3 Meta-analýza: Příklad; Někdy se dílčí detaily grafu liší 0 Zde je souhrnný efekt znázorněný boxplotem a ne „diamantem" není zdůrazněna velikost vzorků. Někdy je graf doplněn o další informace. ° Zde např. heterogenita [i2), viz dále. ° Jindy rozdělení efektů do skupin apod. Je potřeba věnovat pozornost tomu, jaký byl použit ukazatel velikosti účinku. ° Zde standardizovaný rozdíl průměru (tedy Cohenovo d); žádný efekt -> dH0 = Oove.ai ° Na předchozích grafech šlo o poměr šancí (OR); žádný efekt ORH0 = 1. Ehlers. 2005 Lngel. 2015 Tecteau. 1999 r.,.i 1999 Foa. 2005 Hinton. 2005 Homfeld. 2007 Ivarsson. 2014 Johnson. 2011 Kubany. 2003 Kubany. 2004 Litt. 2007 Maguen. 2017 McDonagh. 2005 McGovern. 2015 Monson. 2012 Spence. 2011 van Fmmerik. 2008 .pcOOOl) I ■ I I—■—I I—■—I I—■—I I ■ i i—■—i I ■ I I—■—I I—■—I I—■—I i—■—i ľavois Treatment SM D (95HCI) -1 29 (-1 89.-0 68) -168 (-2 18.-1 17) -1.45 (-2 03. -0 87) •0 23 (0 74. 0 27) -2 661-3.68.-1.64) -0.11 (0 55.0 33) -1 22 (-187.-0.57) -1 28 (-1 95. -0 60) -0 72 (-1 18. -0 26) 2 23 ( 302. 1 44) -094 ( 1 50. 038) 1 30 ( 1 84. 0.75) -0.33 (-0 80. 0.14) -3 09 (-4 04. -2 13) -1 36 (-1 75. -0 97) -0.74 (-0 87. 0 35) -O 53 (-1 73. 0 1 6) 0 46( 1 02.0.09) 0 33 ( 0 65.0.00) -0 931-1 58. -0 28) -0 80 (-1 42.-0 19) -068 (-1 13. 0 23) -1.01 (-1 28. 0 74) Favors Inactive Comparator Forman-Hoffman V, Middleton JC, Feltner C, et al. Psychological and Pharmacological Treatments for Adults With Posttraumatic Stress Disorder: A Systematic Review Update [Internet]. Rockville (MD): Agency for Healthcare Research and Quality (US); 2018 May. (Comparative Effectiveness Review, No. 207.) Evidence Summary. Available from: Heterogenita Odhad, nakolik jsou rozdíly ve výsledcích způsobeny výběrovou chybou a nakolik rozdíly ve výběrových populacích (skutečných efektech). =x2 Cochranovo Q: YÍí=iWí(Jí ~T) s chí-kvadrát rozložením o df = k — 1 stupních volnosti. ° wt je váha zdrojové studie (v případě fixed-effect modelů přímo N, resp. —). ° Odhad rozptylu pozorovaných efektů (viz vzorec pro výpočet rozptylu). Q nelze srovnat napříč studiemi. Proto Higgins a Thompson (2002): I2 = max (® ^; o) x 100% Lze interpretovat jako: ° Co vám to připomíná? © l2 je vlastně reliabilita odhadu specifické velikosti efektu v náhodně vybrané studii. Pozn. - spoiler do přednášky o IRT: V kontextu odhadu IRT reliability by oe = RMSE se shodným postupem výpočtu. Meta-analýza: potíže a řešení Lze jedinou oblast výzkumnou oblast zastoupit jedním číslem? ° Zkoumáme jeden (fixed) efekt nebo populaci (random) efektů? Zdrojové studie. ° Zkreslené původní studie, vynechání důležitých studií. Garbage in, garbage out. ° Srovnávání nesrovnatelného? ° Rozdílné velikost efektů a interpretace testů. Úroveň realizovaných meta-analýz. ° Nedostatečná kontrola kvality původních studií a korekce na publikační zkreslení. Analytická, explorační, explanační meta-analýza. Meta-analýza je kvalitní do té míry, do jaké jsou kvalitní individuální studie. Meta-analýza: potíže a řešení Příklad A: Znáte skutečnou velikost efektu, d = 0,3. Realizujete dvě studie, Nx = 50 a N2 = 500. 0 Otázka AI: Ve které studii budete pravděpodobněji pozorovat statisticky významný efekt? 0 Otázka A2: Ve které studii budete pravděpodobněji pozorovat větší velikost účinku? Příklad B: Neznáte skutečnou velikost efektu. Realizujete dvě studie, N2 = 50 a N2 = 500. 0 Otázka Bl: Ve které studii budete pravděpodobněji pozorovat statisticky významný efekt? 0 Otázka B2: Ve které studii budete pravděpodobněji pozorovat větší velikost účinku? Příklad C: Neznáte skutečnou velikost efektu. V databázi naleznete dvě publikované studie, N1 = 50 a N2 = 500. 0 Otázka Cl: Ve které studii budete pravděpodobněji pozorovat statisticky významný efekt? 0 Otázka C2: Ve které studii budete pravděpodobněji pozorovat větší velikost účinku? Zkreslení v meta-analýze Pozorovaná velikost efektu Tt je složená ze skutečné velikost efektu t (nebo t; v případě heterogenity) a výběrové chyby e: Tt = t + e. Malé studie: Potřebují vyšší pozorovanou velikost efektu, aby byly považovány za signifikantní. ° Snadněji dosahují extrémní (vysoké či nízké) pozorované velikosti efektu. Publikační zkreslení: 0 Vyřadí nesignifikantní studie. Podíl vyřazených studií bude klesat společně s růstem velikosti vzorku. Výběrová chyba je tím větší, čím menší je vzorek: e ~ N ( 0; Meta-analýza: Funnel-plot Fu 119081 Jang (20041 VuOOOS) Yuan 12010) 2>ou (20101 Fang(20101 Ra*w»ii»Hnatw20ll> Rooyjn 120121 U12012) Yau*aal(2014) Ui (2014) Tang (2017) OwM UMand- 19»* p«0241i On 195% CD 1*3(0 If 17 24) 22 23(1 07 4MMl 21 00(1 10 402 201 14 47 (0 7» 2« »31 503(0 *2 34 57) 1*82(101 34*39) i« 19(0*» 30*411 2 20(0 32 14 9*1 34 Mil 91 «30 971 0 50 (0 06 4 IS) 2 71(0 74 104)) • Mil 37 3» It) 30 mi is ita4ii 4420(1*0 10** 141 «90(4 01 11 HI Funnel plot with pseudo 95% confidence limits 92» 2 14 2*7 3*3 » 1« 3 10 30» 10 7* 2 4» 1**7 21 M 10 72 2 10 1 10 100 00 / / / / / I \ 0 B 1 2 logoF —r-6 Figure 4. Forest plot and funnel plot of association between vascular endothelial growth factor protein expression and optic nerve involvement of retinoblastoma. (A) Forest plot and (B) funnel plot. CI = confidence interval, OR = odds ratio. Meta-analyza: Funnel-plot Independent NMES Currier and Mann[251 — Fahey et al.'26' M Fahey et al.l26J F Hortobagyi et al.I20' Kramer and Semplet22' Kubiak et alJ27l Lai et al.I28" Laughman et al.'29' Maffiuletti et al.[3] Mo h ret alJ23] Romero et al.[24] Selkowitz[31] Superimposed NMES Currier and Mann'25' Kramer and Semple[221 ~r ~r i -100 -50 0 50 100 Favours no exercises Favours NMES T T 1— -100 -50 0 50 100 Favours no exercises Favours NMES t T Fig. 3. Forest plot and funnel plot of neuromuscular electrical stimulation (NMES) versus no exercises - healthy quadriceps. The squares and circles represent the mean outcome of each study and the corresponding horizontal lines are 95% confidence intervals. The diamonds represent the pooled (subgroup) outcomes with the horizontal width corresponding to the outcome's 95% confidence interval.[3'20'22"29,31] F = females; M - males. Meta-analyza: Funnel-plot Observed Outcome Observed Outcome https://towardsdatasciencexom/constructing / / 0 A (OR =1 .5) \ Bias induced bythe g \ standard meta-analysis *n v li m ■ 5 ÍI \ » \ -I"- 4 0.58 InOR Moreno, S.G., Sutton, A.J., Ades, A., et al.(2009). Assessment of regression-based methods to adjust for publication bias through a comprehensive simulation study. BMC Medical Research Methodology 9(2). https://doi.org/10.1186/1471-2288-9-2 Zdrojové studie? Silná preference statisticky signifikantních výsledků. 0 92 % publikovaných výsledků v psychologii je statisticky signifikantních (Fanelli, 2010) ° Nárůst zejména v období mezi lety 1990 a 2007 (Fanelli, 2012). -> Konfirmační zkreslení (confirmation bias in publication). Bakker, Van Dijk, & Wicherts (2012): 13 meta-analýz s 281 studiemi. ° Medián N = 40; Statistická síla 1-3 = 0,35; d = 0,5. Fraley & Marks (2007): Meta-analýza korelačních studií osobnosti ° Medián: N = 120, statistická síla 1-3 = 0,65, r = 0,21. ^Consequently, if all effects reported in published studies were true, only 35% would be replicable in similarly underpowered studies/' (Asendorpf et ai. 2013, s. 110) Nic nového pod sluncem... Cohen, J. (1962). The statistical power of abnormal-social psychological research: A review. The Journal of Abnormal and Social Psychology, 65(3), 145-153. doi:10.1037/h0045186 ° Odhad replikovatelnosti: Statistická síla 50 %. 0 Doporučení: Zvýšit sílu na 80 %. A další... THE STATISTICAL ĽOW K It (>1'" ABXOKMAI.-SOÍľTAI. PSYCHOLOGICAL RK5EARCH: .\ i;i\n.ľ, JACOB COVIN .V.-:, Y art frti y ťivtn ■nT| rspcfimenlfll cJTwt in n püptlk- ;ii:.ii. hi:.uť ÜJri'Ly U lIm kiull InypiiLhtMS i.u Th' rxjeít^Lí1 ř^iiiinleibtly, wtiat b ihr power oi llíř sLii|ÍKtH^L UStř Wim lt [he e^tmaJiyai ChaL Ihh: (lala*} null hvuotbč£d& wilJ L* elu-IjíhkI ;lilhI I Kije. .l Typr II i-i ■:it :■ - i- i ■ I =-■-_1 Tt k£ a LTHůtflsrksbltf pbtifcůťíicriůiL lhůt ihe rťJKurth wkii-h 35 Ti:|invrLcd lw j^yr!..:. >k.-.l invcsLffiahiTK rsTtly txřerj tü Lbb íísoí-, and ÉV4ilk hiunz mrriy ucLuii.ly iňvuli^tta :L. Ön tr*c orticf Ttand, bulks cwictTninK Typt 1 etrůr ůr ''algttlfícjttce,'' J-í.P Ehe- rtHdiiy rti [Tic ivj>^Jíwt úí Lh-t- null hypol hc=í-=-. are morc ůr le.o. ^h^ntuJU*!)1 lHtců#wl Lí>, TNl miu.u-il asViiliňťlry ül Muf*hÍKLkaLÍjn ůfiá at-triiiirm to tlicsc Iwo) iyp« oi error Í£ mňrTTJTfld, aibtl largtl)1 dulär mittat, h)1 lIhj rtipOL-ol tíh (iJ i-hcsr i-E-slic? in Ihc sLallatLö IcxctKwkí Nired m Lku uriiduiLtr Lrainuijg i L> pcrfijciwl ,nj'-i ill-.- oulldľiinrt ůf áuía- T'hrtĽ iiuiL-rutionul bfl£oa íoť »Ltimt n i|:■ ľc eírí must íl... ľ n - .1 i in hm -i _-:= 11-■■:- ::> .1 j .11 I.Hki:i i^hifJi h&Yt línie cIhhlí- n-l" ŕlicceas drEpiíť ihr acliial falalty of ttiú null hypothesis, aod prijlKjhl],' LiLIcTL in thr. iu=r l?I" n. íiir [dr.ĽĽ: EiTiiple [Jian íl ĽréUEdflry. Klilttr 4>í líi«t iili^LknuL^i.'r'^ n'jiKtKfuL nÉ rcsťiLrCh vílurt. Sr c m. m. i ují írnmi rhů^ LůnjítdfJuliorL., a pro- LT^in ní in^-sľijrAľiím. ■:-:imp'.itn1ľL-:tfi:. anil m- jjftťLiLffĽ hiĽH Leen ujidiifLiüttn whik« majirf «ltels arc as ľoNuiVM 1. Ti) i^;il] Ihuiv- l^kihv Lij I hi: aMf-jiliuiL »i in-vcsti^nlori, ľ lsti y □ rt'i ľ ť:i u: inarch-, ai^l dvri'.- iial-nry y f Tť JiĽi l ľ C íl pLanĽM!l3 ÍIC -L ■: ■ IL1111 -: -11 ■ ■. ffípnnForHh ajgenuy pflueis, journal editor^}. J. Tu ujůvkle L Li hl ľ i níld ľuDviíiiLLuliíiI scAndaiTtls wliiĽh will ľncälirn-tn 1hŕ prrTnmi-amľŕ úf pisu^ľ iiiialyňťJL fůr lire mcitl ojmniůn slaLiatJGol iraŕ J. Tü CuüdutL HJrm'a uf Olr cjäydlúlo^kal Replikovatelnost (psychologického) výzkumu Začátek ..krize": 2011-2012 Daryl Bern (2011) Diederik Stapel John Bargh (2010) Radikální skepse II: Estimating the reproducibility of psychological science „\Ne conducted a large-scale, collaborative effort to obtain an initial estimate of the reproducibility of psychological science/' 100 studií a výsledky jejich replikace ° Psychological Science ° Journal of Personality and Social Psychology ° Journal of Experimental Psychology: Learning, Memory and Cognition Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716. https://doi.org/10.1126/science.aac4716 Alexander A. Aarts, Joanna E. Anderson, Christopher J. Anderson, Peter R. Attridge, Angela Attwood, Jordan Axt, Molly Babel, Štěpán Bahník, Erica Baranski, Michael Barnett-Cowan,Elizabeth Bartmess, Jennifer Beer, Raoul Bell, Heather Bentley, Leah Beyan, Grace Binion, Denny Borsboom, Annick Bosch, Frank A. Bosco, Sara D. Bowman, Mark J. Brandt, Erin Braswell, Hilmar Brohmer, Benjamin T. Brown, Kristina Brown, Jovita Brüning, Ann Calhoun-Sauls, Shannon P. Callahan, Elizabeth Chagnon, Jesse Chandler, Christopher R. Chartier, Felix Cheung, Cody D. Christopherson, Linda Cillessen, Russ Clay, Hayley Cleary, Mark D. Cloud, Michael Cohn, Johanna Cohoon,Simon Columbus, Andreas Cordes, Giulio Costantini, Leslie D. Cramblet Alvarez, Ed Cremata, Jan Crusius, Jamie DeCoster, Michelle A. DeGaetano, Nicolas Delia Penna, Bobby den Bezemer, Marie K. Deserno, Olivia Devitt, Laura Dewitte, David G. Dobolyi, Geneva T. Dodson, M. Brent Donnellan, Ryan Donohue, Rebecca A. Dore, Angela Dorrough, Anna Dreber, Michelle Dugas, Elizabeth W. Dunn, Kayleigh Easey, Sylvia Eboigbe, Casey Eggleston, Jo Embley, Sacha Epskamp, Timothy M. Errington, Vivien Estel, Frank J. Farach, Jenelle Feather, Anna Fedor, Belén Fernández-Castilla, Susann Fiedler, James G. Field, Stanka A. Fitneva, Taru Flagan, Amanda L. Forest, Eskil Forsell, Joshua D. Foster, Michael C Frank, Rebecca S. Frazier, Heather Fuchs, Philip Gable, Jeff Galak,Elisa Maria Galliani, Anup Gampa, Sara Garcia, Douglas Gazarian, Elizabeth Gilbert, Roger Giner-Sorolla, Andreas Glöckner, Lars Goellner, Jin X. Goh, Rebecca Goldberg, PatrickT. Goodbourn, Shauna Gordon-McKeon, Bryan Gorges, Jessie Gorges, Justin Goss, Jesse Graham, James A. Grange, Jeremy Gray, Chris Hartgerink, Joshua Hartshorne, Fred Hasselman, Timothy Hayes, Emma Heikensten, Felix Henninger, John Hodsoll,Taylor Holubař, Gea Hoogendoorn, Denise J. Humphries, Cathy O.-Y. Hung, Nathali Immelman, Vanessa C Irsik, Georg Jahn, Frank Jäkel, Marc Jekel, Magnus Johannesson, Larissa G. Johnson, David J. Johnson, Kate M. Johnson, William J. Johnston, Kai Jonas, Jennifer A. Joy-Gaba, Heather Barry Kappes, Kim Kelso, Mallory C Kidwell, Seung Kyung Kim, Matthew Kirkhart, Bennett Kleinberg, Goran Kneževič,Franziska Maria Kolorz, Jolanda J. Kossakowski, Robert Wilhelm Krause, Job Krijnen, Tim Kuhlmann, Yoram K. Kunkels, Megan M. Kyc, Calvin K. Lai, Aamir Laique, Daniel Lakens,Kristin A. Lane, Bethany Lassetter, Ljiljana B. Lazarevič, Etienne P. LeBel, Key Jung Lee,Minha Lee, Kristi Lemm, Carmel A. Levitan, Melissa Lewis, Lin Lin, Stephanie Lin,Matthias Lippold, Darren Loureiro, Use Luteijn, Sean Mackinnon, Heather N. Mainard,Denise C Marigold, Daniel P. Martin, Tylar Martinez, E.J. Masicampo, Josh Matacotta,Maya Mathur, Michael May, Nicole Mechin, Pranjal Mehta, Johannes Meixner, Alissa Melinger, Jeremy K. Miller, Mallorie Miller, Katherine Moore, Marcus Möschl, Matt Motyl, Stephanie M. Müller, Marcus Munafo, Koen I. Neijenhuijs, Taylor Nervi, Gandalf Nicolas, Gustav Nilsonne, Brian A. Nosek, Michěle B. Nuijten, Catherine Olsson,Colleen Osborne, Lutz Ostkamp, Misha Pavel, Ian S. Penton-Voak, Olivia Perna, Cyril Pernet, Marco Perugini, R. Nathan Pipitone, Michael Pitts, Franziska Plessow, Jason M. Prenoveau, Rima-Maria Rahal, Kate A. Ratliff, David Reinhard, Frank Renkewitz,Ashley A. Ricker, Anastasia Rigney, Andrew M. Rivers, Mark Roebke, Abraham M. Rutchick, Robert S. Ryan, Onur Sahin, Anondah Saide, Gillian M. Sandstrom, David Santos, Rebecca Saxe, René Schlegelmilch, Kathleen Schmidt, Sabine Scholz,Larissa Seibel, Dylan Faulkner Selterman, Samuel Shaki, William B. Simpson, H. Colleen Sinclair, Jeanine L. M. Skorinko, Agnieszka Slowik, Joel S. Snyder, Courtney Soderberg,Carina Sonnleitner, Nick Spencer, Jeffrey R. Spies, Sara Steegen, Stefan Stieger, Nina Strohminger, Gavin B. Sullivan, Thomas Talhelm, Megan Tapia, Anniek te Dorsthorst,Manuela Thomae, Sarah L. Thomas, Pia Tio, Frits Traets, Steve Tsang, Francis Tuerlinckx, Paul Turchan, Milan Valášek, Anna E. van't Veer, Robbie Van Aert, Marcel van Assen, Riet van Bork, Mathijs van de Ven, Don van den Bergh, Marije van der Hulst,Roel van Dooren, Johnny van Doom, Daan R. van Renswoude, Hedderik van Rijn, Wolf Vanpaemel, Alejandro Vásquez Echeverría, Melissa Vazquez, Natalia Velez, Marieke Vermue, Mark Verschoor, Michelangelo Vianello, Martin Voracek, Gina Vuu, Eric-Jan Wagenmakers, Joanneke Weerdmeester, Ashlee Welsh, Erin C Westgate, Joeri Wissink,Michael Wood, Andy Woods, Emily Wright, Sining Wu, Marcel Zeelenberg, Kellylynn Zuni Radikální skepse Estimating the reproducibility of psychological science Původní velikost efektů: ° Průměrná velikost účinku Mr = 0,403; 50 = 0,188 ° Statistická signifikance: 97 % studií p < 0,05 Design replikací: průměrná síla testu = 0,92. ° -> 89 % replikací by mělo být signifikantní. ° Ale: průměrná síla testu originálních studií: 39 %. Replikovaná velikost efektů: ° Průměrná velikost účinku Mr = 0,197; SD = 0,257 ° Statistická signifikance: 36 % studií p < 0,05 CD N to 0.50 -0.50 p-value ■ Not Significant Significant Replication Power o 0.6 o 0.7 O OJ O0.9 Hodnota velikostí účinku z původních studií se nacházela v 95% intervalu spolehlivosti při replikaci v 47 % případů. 0.00 0.25 0.50 0.75 Original Effect Size 1.00 Příklady nereplikovatelny Priming (social primin, 0 elderly priming, Macä Ego deplation (vyčer Power posing Vybrané aspekty faci ° „smiling will make you Marshmallow test Příklady nereplikovatelných efektů Priming (social priming). ° elderly priming, MacBeth effect, cleanliness priming, money priming... Ego deplation (vyčerpání ega). Power posing Vybrané aspekty facial-feedback hypothesis ° „smiling will make you feel happier'' Marshmallow test Počet citací gu stanm v case Bargh, J.A., Chen, M., & Burrows, L. (1996). Automaticity of social behavior: Direct effects of trait construct and stereotype activation on action Journal of Personality and Social Psychology, 71(2). https://doi.orR/10.1037/0022-3514.71.2.230 eplikace 4: Až Barghova reakce na tut replikaci spustila veřejnou debatu Doyen, S., Klein, O., Pichon C.L., Cleeremans, A. (2012). Behavioral Priming: It's All in the Mind, but Whose Mind? PLoS ONE 7(1), e29081. https://doi.org/10.1371/journal.pone.0029081 t-1-i-i-i-1-1—■—i-1-i-1—■—i—■ i-1-1-1—■—i-1-1-1-1-1-1-1-1-1-r 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 Citations 28 Počet citací primingu stářím v čase Bargh, JA, Chen, M., & Burrows, L. (1996). Automaticity of social behavior: Direct effects of trait construct and stereotype activation on action Journal of Personality and Social Psychology, 71(2). https://doi.orR/10.1037/0022-3514.71.2.230 Přehled replikačních studií (vyhledávejte „elderly priming") ° https://curatescience.org/app/replications J. A. Bargh: Priming Effects Replicate Just Fine, Thanks 0 Bargh ova reakce; https://www.psvchoiogytodav.com/us/biog/the-naturai-unconscious/201205/prim fine-thanks Susan Fiske: ^Methodological terrorism". 0 Shrnutí: https://www.businessinsiderxom/susan-fiske-meth Dobová reflexe Barghovy kauzy. 0 https://www.nationalgeographic.com/science/article/failed-replication-bargh-psvchology-studv-doven „Doktor R strikes back" (reflexe po sedmi letech): 0 https://replicationindex.com/2019/03/17/raudit-bargh/ i I 2000 Replikační krize není jen v psychologii Year 2000: Registration of primary outcomes required on ClinicalTrials.gov 0 „\Ne identified all large NHLBI supported RCTs between 1970 and 2012 evaluating drugs or dietary supplements for the treatment or prevention of cardiovascular disease. Trials were included if direct costs >$500,000/year, participants were adult humans, and the primary outcome was cardiovascular risk, disease or death. [...] The number NHLBI trials reporting positive results declined after the year 2000. Prospective declaration of outcomes in RCTs, and the adoption of transparent reporting standards, as required by clinicaltrials.gov, may have contributed to the trend toward null findings/' 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 Publication year Replikacni krize nejen v psychologii. ° Kaplan, R.M., Irvin, V.L (2015). Likelihood of Null Effects of Large NHLBI Clinical Trials Has Increased over Time. PLoS ONE 10(8): e0132382. Replikační krize není jen v psychologii Populační genetika: analýza hlavních komponent (PCA) pro redukci informace z analýzy genomu jako „předkrok" při analýzách (analyzovány jsou pak komponenty). „Our findings raise concerns about the validity of results reported in the population genetics literature and related fields that place a disproportionate reliance upon PCA outcomes and the insights derived from them. We conclude that PCA may have a biasing role in genetic investigations and that 32,000-216,000 genetic studies should be reevaluated/' ° Elhaik, E. (2022). Principal Component Analyses (PCA)-based findings in population genetic studies are highly biased and must be reevaluated. Scientific Reports 12(14683). https://doi.orR/10.1038/s41598-022-14395-4 0 Ale vůbec tomu nerozumím © Twitter diskuze. Dan Ariely Francesca Gino (vol 1) Shu, LL, Mazar, N., Gino, R, Ariely, D., & Bazerman, Max. H. (2012). Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end. PNAS, 109(38), 15197-15200. https://doi.org/10.1073/pnas.1209746109 Článek obsahoval 3 studie: ° 1 a 2: Laboratorní experimenty. ° 3: Terénní experiment. SIGN AT THE BOTTOM Shu stal. 10.1073V|Kidi. 1109746109 F«mí3ll5 Write Clearly Research Study Tax Return Fur iti period June L. MJO. ihrirjb. Autuil 30. 10K 4 ■ i .1. t: --Jrc. .....■: Qly.SfehuiZlfaá QlUJ M- liiJOI.. Fta JJiTmiSIrtliir: ĽarUiij j IttJit illLnil Uiľ Ľm-hTiin-ŕ Uj _-j 111 p u: _ ■■ i:ur Ujid piymCrL I flow mier±i... .... i..i.... .. v.<:•.> .1 : .■ 1.. p.: .v.:.... 1 j. ..id . . -.- 1 J Tacaipirnnl Mm nkr kifip^ni tfj Wits, n ľJTf&jmal li (. W ri*™ cvrrj dn hm ■ H-™!"'Ti3,-:v,'ikic-!iv:-pnd[r.iÉPTOTitr iTKíhVd 11 hru I. PclLcipwilr will h? crcľftmalfj far pln dlíme* lbe? hm% inciimd m nrjkj li> pirliirinlE! lb Ihis Hijrjy. |n Port 2, y*iu írŕ asLtd 10 ľSuiiLľ: ihecOK ÍiWuíiďÍ in úidt líř pinitifůlr. Tliíit laiĽi Will h dedil:icd liucn vinil ESA ftUťiL I Flam-r^mre-ta:rnt 11 r ncof| xám.................._..............._................. Sign lim Fotrn 3305 fl «iBDCtrtafcd up iu 7. riii-í jJ-.-kUJfiíK.flJlIK ^^^^1 Ter-^ ^■vmp::le víir linul pr^TKr.t. .. ... Ĺ :■.- J. ^ l..- . J '. t', .i"; j .1.: í.l ÍZÍ vjjui iprtifiŕl in ltd. u.1hEi U K ITĽIlJ jľ^ĽflIL H. S1. Tin r«m uä±d In t^ttirenn i. difnAťt« *t bůiBVi eMdkm. Dan Ariely Francesca Gino (vol 1) This is Table 1 in Kristal et al. (2020), reporting their re-analysis of Shu et al. (2012) Sign-at-the-bottom, means (SD) Sign-at-the-top, means (SD) Two-sided f test, values Baseline odometer reading (tO) New odometer reading (t1) Difference in odometer readings; i.e., miles driven (M-fO)* 75,034.50 (50,265.35) 98,705.14 (51,934.76) 23,670.64 (12,621.38) 59,692.71 (49,953.51) 85,791.10 (51,701.31) 26,098.40 (12,253.37) t(i3.474) = 17.78, P < 0.0001 t(i3.475)= 14.47, P< 0.0001 f(13.448)= -11 331, P< 0.0001 •This row was the outcome reported in the original paper. Simonsohn, U., Nelson, L, & Simmons, J. (August 17, 2021). Evidence of Fraud in an Influential Field Experiment About Dishonesty. Data Colada (98). https://datacolada.org/98 Figure 1. Histogram of Miles Driven - Car #1 (N = 13,488) Figure 3. Last Three Digits at Baseline (Time 1) vs Updated (Time 2) There is Rounding in Baseline Mileage There is NO Rounding in Updated Mileage 500 >. 400 o c 3 300 U. 200 Al values from 0 to 50.000 are eaually common There are no values greater than 50.000 E 8% - 9! —i-1-1-1-1-1-1-1-1-1 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 Implied Miles Driven (Time 2 Mileage ■ Time 1 Mileage) • Multiple of 100 • Other number* 10 s •-d - DM 6 6% • Multiple of 100 • Other numbers 250 500 750 Last 3 digits (All Cars rV- 20.741) 250 500 750 Last 3 digits (AllCars N• 20.741) Dan Ariely Francesca Gino (vol 2) Simonsohn, U., Nelson, L, & Simmons, J. (June 17, 2023). Data Falsificada (Part 1): "Clusterfake". Data Colada (109). https://datacolada.org/98 „/£ turns out that Study I's data were also tampered with...but by a different person/' Francesca Gino navíc zfalšovala data v celé řadě dalších studií. _25 í 20 — 15 5 io c 6 5 LU 0 J Flagged Observations Show Huge Effect Travel Expenses in Study 1 - Shu et al. (2012) No red flag Flagged (duplicate or out of sequence) t(6) = 21.92, p<.000001 * *** Sign-Bottom Sign-Top Condition Dan Ariely Francesca Gino (vol 3) Články prof. Gino byly staženy z mnoha časopisů. Gino na Harvard Business School už nepůsobí. V srpnu 2023 nicméně prof. Gino zažalovala Simonsohna, Nelsona a Simmonse o 25 mil. USD. 0 (Sbírka už byla ukončena, všichni mají dobré právníky.) Během procesu a v žalobních důkazech byly nicméně publikovány výsledky interního vyšetřování Harvardu. Data byla jednoznačně zmanipulovaná. Nemusíme ale chodit do zahraničí... Ngmusíme ale chodit do iDNES.cz I ZPRAVODAJSTVÍ Domácí Domácí Zahraničí Krimi Kraio cu ™ Kraje Ekonom,ka Kultura Finance zahraničí... V0'by Ná2°ry """""'^ > ä^es > article íntelígencí' ^®^te,n snižuje Artlcle 10pen Access | ^ -Cleckéf k RETRACTED ARTICLE: Differences in cogn.ti ty Univef** ^owZBstffl fc „...... between cytomegalovirus-infected and cytomegalovirus-f ree university students: introl study O 28. dubna 2018 18:07 Vědci z Přírodovědecké fakulty Univerzity Karlovy zjistili, že jeden z velmi běžnýt inteligenci nakažených lidí. Protilátky na cytomegalovirus měla více než polovina starších lidí se podle vedoucího týmu Jaroslava Flegra vyskytuje virus ještě častě zveřejnil na konci března prestižní vědecký časopis Scientific Reports. CO §ebánková — .c \ i Citations \ • 4565 Accesses | ■III o ^^^^c,e^ Originální článek: https://www.naturexom/articles7s^l59^18-23637-3 Preprint komentáře: https://osf.io/j9xct ive a case functions Vlastně příklad dobré oraxp- R*,ia i ^ Jaké jsou podle vás příčiny? Mimo evidentní a záměrný podvod? Mimo obyčejnou chybu při analýze? Pochybné praktiky ve výzkumu „In a poll of more than 2000 psychologists, prevalences of 'Deciding whether to collect more data after looking to see whether the results were significant' and 'Stopping data collection earlier than planned because one found the result that one had been looking for' were subjectively estimated at 61% and 39%, respectively" 0 John, Loewenstein, & Prelec, cit. dle Asendorpf et al., 2013 Questionable research practices. Podvodné vs. pochybné jednání? ° „ Fraud is typically limited to cases in which researchers create false data." 0 „ln contrast, QRPs typically involve the exclusion of data that are inconsistent with a theoretical hypothesis. QRPs are treated differently than fraud because QRPs can sometimes be used for legitimate purposes/'(John, Loewenstein, & Prelec, 2012) Kde je zakopaný pes? Questionable Research Practices_OK 1. Not reporting "failed" studies. 83% 2. Not reporting DVs if not significant 92% 3. Not reporting Conditions that "did not work" 89% 4. Excluding data based on effect on p-value. 81% 5. Stopping data collection when significant. 89% 6. Reporting unexpected results "as predicted" 75% Table I. Likelihood of Obtaining a False-Positive Result Significance level Researcher degrees of freedom p<.\ p < .05 p< .01 Situation A: two dependent variables (r = .50) 17.8% 9.5% 2.2% Situation B: addition of 10 more observations 14.5% 7.7% 1.6% per cell Situation C: controlling for gender or interaction 21.6% 11.7% 2.7% of gender with treatment Situation D: dropping (or not dropping) one of 23.2% 12.6% 2.8% three conditions Combine Situations A and B 26.0% 14.4% 3.3% Combine Situations A, B. and C 50.9% 30.9% 8.4% Combine Situations A. B. C. and D 81.5% 60.7% 21.5% (John, Loewenstein, & Prelec, 2012) (Simmons, Nelson, & Simonsohn, 2011) Kontrola předchozích zjištění P-HACKER P-CHECKER p-hacker: Train your p-hacking skills! New study Now: p-haek! Settings for initial data collection: Name for experiments I group Type in your favorite effect Name for control group Initial #of participants in each group True effect {Cohen's d] (Discards previous data) irJIautarHatitnlly inrn>m«H«l] Tests for each DV (full group) Scatterplot: Remove outliers! (full group) Choose DV to plot | DV3 " | R-Ind ex TIVA p-Curve p values correctly reported? Export R-lndex analysis: Success rate = 0.9167 Mean observed power = 0.6899 Inflation rate = 0.2268 R-lndex = 0.4631 For information about R-tndex, see http://www.r-index.org/. Detailed results for each test statistic: paper id study id type dfl df2 statistic p.value p.crit Z obs.pow significant median.obs.pow 1 .1 t 47 NA 2.100 0.041 0.050 2.042 0.533 TRUE 0.533 2 .2 chi2 1 NA 9.100 0.003 0.050 3.017 0.855 TRUE 0.855 Nástroje k odhalení QRP Egerůvtest (z-test) a funnel plot. P-curve: Rozložení (resp. zešikmení) p-hodnot p < 0,05. ° Dobré rozložení: zprava zešikmené. QRP: zleva zešikmené (většina p-hodnot blízko cut-offu). Z-curve: Srovnání pozorovaného „success-rate" a mediánu statistické síly. ° R-index: Odhad podílu studií, které by bylo možné replikovat. „Test of insufficient variance" (TIVA): ° P-hodnoty převedené na z-skóry by měly být normálně rozdělené (SD=1). GRIM test: Detekce nemožných průměrů. ° Některé hodnoty desetinných míst nejsou přípustné v případě malých vzorků. 0 http://www.prepubmed.org/grim test/ P-checker: https://shinyapps.orR/apps/p-checker/ Příklady replikačních pokusů Pokusy o další vysvětlení potíží 10 let projektu Many Labs Sripada et al (basis of protocol) 0.318 0 274 0.68 [ 0.09 , 1.27] Birt & Muise Calvillo & F.' ills Carruth & Miyake Crowell, Finley & Schmeichel Evans. Fay & Mosser Francis & Inzlicht Hagger, Chatzisarantis & Zwerenberg Lau & Brewer Lynch. vanDellen & Campbell Philipp & Cannon Ringos & Carlucci Brandt Cheung. Kroese, Fennis & de Ridder Elton Lange. Heise & Hoemann Muller, Zerhouni & Batailler Otgaar, Martijn, Alberts, Michirev, Merckelbach & Howe Rentzsch, Nalis & Schütz Schlinkert, Schrama & Koole Stamos, Bruyneel S Dewitte Ullrich. Primoceri& Schoch Wolff. Muzi & Brand Yusainy, Wimbarti, Nurwanti & Anggono 0.314 0.354 0.324 0.316 0.326 0.301 0.32 0.323 0.337 0.309 0.332 0.284 0.311 0.299 0.281 0.344 0.278 0.282 0.315 0.3 0.291 0.33 0.287 0.294 0.324 0.332 0.29 0.349 0.317 0.32 0.307 0.307 0.312 0.301 0.292 0.308 0296 0.296 0.381 0.308 0 293 0.315 0.309 0285 0.3 0.272 Meta-analytic effect for replications only „ Although a meta-analysis of ego-depletion experiments found a medium-sized effect, subsequent metaanalyses have questioned the size and existence of the effect and identified instances of possible bias. [...] Multiple laboratories (k = 23, total N = 2,141) conducted replications of a standardized ego-depletion protocol [...] the size of the ego-depletion effect was small with 95% confidence intervals (CIs) that encompassed zero (d = 0.04, 95% CI [-0.07, 0.15]." -0.41 [-0.91 , 0.09] -0.18 [-0.57, 0.21] -1.00 -0.50 0.00 Standardized Mean [ A Multilab Preregistered Replication of the Ego-Depletion Effect ° Hagger, M. Sv et al. (2016). A Multilab Preregistered Replication of the Ego-Depletion Effect. Perspectives on Psychological Science, 11{4), 546-573. Figure 1. Forest Plot of Performance Outcome by Laboratory. The box plots and numerical values illustrate the same effect size estimates. For the plots, the size of the box represents its weighted contribution to the overall effect and its whiskers display 95% CIs. The dotted line represents a zero effect size. Numerical values show standardized mean differences between depletion and non-depletion conditions expressed in Cohen's d {with 95% CIs). The diamond is the overall meta-analytic effect derived from a random-effects model. Lab N d [95% CI] Weight d [95% CI] Janie Wilson 22 Mauro Giacomantonio 82 Anthony Hermann 58 Samuel Clay 73 Michelle Varidellen 65 Aaron Wich man 75 Astrid Schuetz 47 Michael Baker bQ Sarah Ainsworth 75 Edward Hirt 51 David Loschelder 60 Heather Maranges 61 Anand Krishna 60 Suza nn e Segerstro m 47 Michael Inzlicht 63 Malte Friese 66 Ian Mogregor 67 Dana Leignton 30 Jennifer flowell 60 Marina Milyavskaya 142 Jessica Alquist 73 Wake Forest Group 76 Sander Koole 62 Mark Muraven 86 Brandon Sc hnnei che I 150 Kate Sweeny 50 Martin Hagger 42 Beb Fenns 69 Jessica Curtis 68 Brian Kissell 85 Wendy Mendes 44 Nicole Mead 3Si Matthew Findley 29 Akira Miyake 97 Eli Finkel 76 Wilhelm Hofmann 153 i-—;—i I ■ il I ■ i I D.86% 3.28% 2.35% 2.82% 2.62% 3.06% 1.93% 2.39% 3.10% 2.13% 2.49% 2.50% 2.45% 1.93% 2.62% 2.74% 2.76% 1.22% 2.50% 5.75% 2.99% 3.10% 2.56% 3.53% B04% 2.04% 1.45% ? 84% 2.81% 3.51% 1.71 % 1.58% 1.22% 3.94% 3.09% 6.11% 0.S3 0.54 0.50 0.41 0.33 0.32 0.26 0 26 0.22 0.20 0 19 0.18 0.17 0.13 0.13 0.13 0.11 0.08 0.07 0.02 0 01 0 0G 0.00 -0.02 -0.03 -0.03 -0.04 -0.09 -0.10 -0.12 -0.15 -0.17 -0.24 -0.29 -0.29 -0.29 -0.04, 0.10. 002, 0.06, 0 16, -0 14, -0 32, ■0,26, -0 23, -0.35, ■0.32, ■0.32, -0 34, 0.45, 0 37, 0 36, -0 37, 0.65, 043, -0 31, 0,45, -0 45, 0.50, -0.44, 0,35, 0.60. 0,71, 0.56, -0 58, 0 55, -0 76, 0,81, 0 98, 0.69; 074, 0.61, 1 70 0.98 1.02 0.89 0.63' 0.77' 0 04 0.77' 0 C7' 0.75' 0,70 0.69' 0.68' 0.7T 0.62 0.61' 0.59 0 BT 0.58' 0.35' 0.47' 046 0.50 040 0.29 0.53' ü 63' 0 33' 0.37' 0.30' 0.47' 0 47' 0.49 0.12' 0.16' 0.03' „We conducted a preregistered multi-laboratory project (k = 36; N = 3531) to assess the size and robustness of ego depletion effects using a novel replication method, termed the paradigmatic replication approach. [...] non-significant result, d = 0.06. Confirmatory Bayesian meta-analyses using an informed prior hypothesis (8 = 0.30; SD = 0.15) found the data were four times more likely under the null than the alternative hypothesis. Hence, preregistered analyses did not find evidence for a depletion effect." RE Model 100.00% 0 06 [-0,02, 0,14] Vohs, K., et al. (2021). A multi-site preregistered paradigmatic test of the ego depletion effect. Psychological Science. https://doi.org/10.1177/0956797621989733 Anchoring Cacowitz & Kahneman, 1995) - Babies Anchoring Cacowitz & Kahneman, 1995) - Everest Anchoring Cacowitz & Kahneman, 1995) - Chicago Anchoring Cacowitz & Kahneman, 1995) - NYC Corr. between I and E math attitudes (Nosek et al., 2002) Retro, gambler's fallacy (Oppenheimer & Monin Cain vs loss framing (Tversky & Kahneman Sex diff. in implicit math attitudes (Nosek et al. Low-vs.-high category scales (Schwarz et al. Allowed/Forbidden (Rugg Quote Attribution (Lorge & Curtis Norm of reciprocity (Hyman and Sheatsley Sunk costs (Oppenheimer et al. Imagined contact (Husnu & Crisp Flag Priming (Carter et al. Currency priming (Caruso et al. 2009) 1981) 2002) 1985) 1941) 1936) 1950) 2009) 2010) 2011) 2012) „This research tested variation in the replicability of 13 classic and contemporary effects across 36 independent samples totaling 6,344 participants [...] We compared whether the conditions such as lab versus online or US versus international sample predicted effect magnitudes. By and large they did not" m X —«►— X Many Labs 1 ° Klein, R. A., Ratliff, K. A., Vianello, M., Adams, R. B., Jr., Bahník, Š., Bernstein, M. J., . .. Nosek, B. A. (2014). Investigating variation in replicability: A "many labs" replication project. Social Psychology, 45(3), 142-152. -i. .00 ,00 1,00 2,00 Standardized Mean Difference (d) 3,00 A Original Effect Siie Cohen's g -i a i Fig. 2. Effect-size distributions for the 28 effects. The effect size for each replication sample is plotted as a short vertical line; the agregáte estimates are plotted as longer, thick vertical lines. Results for samples with fewer than 15 participants hecause of exclusions are not plotted, and some samples were excluded hecause of errors in administration. A detailed accounting of all exclusions is available at https:// mTnvľ]hsf%r.ŕ»nscienť-f ailhiih io/MT 7 d ir-i cle-minu IJnťirive efferr sives inHic-.re effects consistent tvith the i-H reclion tif the oriuin-il QndillES Disgust Sensitivity Pred ids HomopľícCna (Inbar et al., 20W) Assimilation & Contrast Effects (Schwarzet al.. 1991) Correspondence Bias (Miyamoto & Kitayama Perceived mienlioriality for Side Effects (Knobe Trolley Dilemma f (Hauseret al. False Consensus: Supermarket Scenario (Ross et al. Moral Typecasting (Gray & Wearier False Consensus: Traffic-Ticket Scenario (Ross et al. Preferences for Formal vs. intuitive Reasoning(Norernayanet al. bess-ls-Better Effect (Hsee Effect of Framing (Tverstcy & Kariiieman Oar J iuI u112l" all & SbS ■ -uaiit; si a . Moral Foundations of Liberals ys. Conseivatives (Granam et al. Reluctance tn Tern pi Fate (Risen & Gilovich Trolley Dilemma 2 (Hauser et al. Consumerism Undermines Trust (Bauer et al. influence Qf Incidental Anchors iCntcher & Gilovich SVO and Family Sue (Van tange et al. Moral Violations & Cleansing (Zhong & tiljenpuist Vertical Position & Power (Giessner & Schubert Directionality & Similarity (Tversky £ tiati SMS. S Weil-Being (Anderson et al. Priming "Heat" (Zaval el al. Sbudure Promotes Coal Pursuit iKa/et al. Disfluency Engages Analytic Processing (Alter el al. Effect of Choosing vs. Rejecting (Shafir Af led & Risk tftotlenstreich & Hsee Construing Actons as Choices (Savani et al. 20Ď2) 20Ď3) 2007) 19?7i 20M) 197Í) 20Ď2) I9i;bli 1931) 2014) 20M) 20QB) 20DF") 2012) 20DE) 199?) 20DG) 20Dr) 1 2012) 2014) 2014) 2007) 1993) 2001) 2010) X ■■ bi IÍIT""t n ^ ÍTmít—-^- A J í í s* rJ-rffiBi ■ľiimbiTTľL^___. 1 1 IIÉ^Ill Í 1 ■■ 1 P-h_ ■ m —rfiMiin ■ i■i7t--_ i * ~" 11ii11 i""*^" 1 "SiifciiTiiTítíí>^ lllL 0<\ „Across settings, the Q statistic indicated significant heterogeneity in 11 (39%) of the replication effects, and most of those were among the findings with the largest overall effect sizes; only 1 effect that was near zero in the aggregate showed significant heterogeneity according to this measure. [...] Moderation tests indicated that very little heterogeneity was attributable to the order in which the tasks were performed or whether the tasks were administered in lab versus online. [...] Cumulatively, variability in the observed effect sizes was attributable more to the effect being studied than to the sample or setting in which it was studied." Many Labs 2 ° Klein, R. A., et al. (2018). Many Labs 2: Investigating Variation in Replicability Across Samples and Settings. Advances in Methods and Practices in Psychological Science, 1(4), 443-490. Pace University University of Florida Azusa Pacific University University of Wisconsin Ithaca College University of Kansas Worcester Polytechnic Institute Pacific Lutheran University Westeyan University University of Pennsylvania Southern Oregon University University of Illinois Summary (In House labs) Ashland University Pace University University of Kansas UC Riverside University of Wisconsin Virginia Commonwealth University Occidental College The College of New Jersey Bngham Young University - Idaho Summary (Author Advised labs) „We (N = 21 Labs and N = 2,220 participants) experimentally tested whether original author involvement improved replicability of a classic finding from Terror Management Theory (Green berg et a I., 1994). Our results were nondiagnostic of whether original author involvement improves replicability because we were unable to replicate the finding under any conditions. This suggests that the original finding was either a false positive or the conditions necessary to obtain it are not yet understood or no longer exist/' Many Labs 4 ° Klein, R. A., et al. (2019, December 11). Many Labs 4: Failure to Replicate Mortality Salience Effect With and Without Original Author Involvement. ° preprint Albarracin et al. (2008), Experiment 5 Albarracin et al. [20031. Experiment 7 Original - Original - w 9 RP:f> - —1 RF.P w ML5 RP:f> - • MLS FP:P - i y i ML5 Revised - *•< ML5 Revised - h All Data - I ••< 1 1 AlData ■ i I 1 1 1 -.5 .0 .5 1.0 Crosby. Monin, & Richardson (2008) -5 0 .5 1J0 Förster, Liberman, & Kuschel (2003) Or gina RP:P MLS RP:P MLB Revised All Data Original • RF.P - • MLS FPP -MLS Revised -AlData - i *—\- • • -1-1-' .0 .5 LoBue i DeLoacrie (2008) 1.0 -s .o .5 ua Payne, Burkley, 4 Stakes (2006) rp f MLS RP:p MLS Revised All Data Original -RP.P -MLS FPP -ML5 Revised -AlData w * 1 1 -1-1-J —_ .0 .5 Risen & Qilovicti (2008) 1.0 X .5 10 Stinabel & Nadler (2008) Original - Original - w P RP:P - k RP.P - ML5 RP:P - * MLS FP:P - ■ ML5 Revised - ML5 Revised - • All Data - i i k 1 1 AlData - I • 1 1 -.5 .0 .5 1.0 van Dijk, van Kleef, Steinet, a van Beest (200S) -5 0 .5 1J0 Vobs a Schooler (2O0S) RiFF MLS RP:P All Data •—1 Original • RF.P - —•— —• • MLS FPP -ML5 Revised -AlData- w w .0 .5 Effect Size (Pearson's r) 1.0 X .5 1.0 Effect Size (Peaison'sr") „lf these [replication] studies use methods that are unfaithful to the original study or ineffective in eliciting the phenomenon of interest, then a failure to replicate may be a failure of the protocol rather than a challenge to the original finding. Formal pre-data-collection peer review by experts may address shortcomings and increase replicability rates. [...] Overall, following the preregistered analysis plan, we found that the revised protocols produced effect sizes similar to those of the RP:P protocols (Ar = .002 or .014, depending on analytic approach)/' Many Labs 5 ° Ebersole, C.R., et al. (2020). Many Labs 5: Testing Pre-Data-Collection Peer Review as an Intervention to Increase Replicability. Advances in Methods and Practices in Psychological Science, 3(3), 309-331. Fig- 2. Eflftcr. .sizt.s ft um Ute 1IJ (KlkiiU-I scudifti jnJ iheir replLi^iiiun* in iJie KeprixJuLibiliLV Pru^-Li: r.syi.-luclux.y (HIM1; 0]Hrri itTKt t:i?ll-jlKjra.[i^"c l-onfidtnti: liih.i\iiI.v Co tedy dnes víme? Rep li kováte Inost efektu je důsledkem efektu, nikoli intervenujících proměnných. Many Labs 1 (2014): Jazyk či konkrétní laboratoř nemá vliv. ° Many Labs 2 (2018): Charakteristiky laboratoře nemají vliv, heterogenita efektů se však různí. ° Many Labs 3 (2016): Výsledky na studentských populacích vycházejí stejně v průběhu roku (např. semestr vs. zkouškové). ° Many Labs 4 (2022): Účast původního autora nemá vliv. ° Many Labs 5 (2020): Úpravy výzkumného protokolu nemají vliv. „After 10 Years, 'Many Labs' Comes to an End - But Its Success Is Replica b I e" ° https://news.virginia.edu/content/after-10-vears-many-labs-comes-end-its-su Reproducibility, replicability, generalizability Reproducibility (Reprodukovatelnost) ° „Researcher B must have the following: (a) the raw data; (b) the code book (variable names and labels, value labels, and codes formissing data); and (c) knowledge of the analyses that were performed by Researcher A (e.g. the syntax of a statistics program)/' Replicability (Replikovatelnost) ° „The finding can be obtained with other random samples drawn from a multidimensional space that captures the most important facets of the research design. In psychology, the facets typically include the following: (a) individuals (or dyads or groups); (b) situations (natural or experimental); (c) operationalizations (experimental manipulations, methods, and measures); and (d) time points/' Generalizability (Zobecnitelnost) ° „lt does not depend on an originally unmeasured variable that has a systematic effect. In psychology, generalizability is often demonstrated by showing that a potential moderator variable has no effect on a group difference or correlation/' Měření v psychologii a replikovatelnost Lilienfeld, S. O., & Strother, A. N. (2020). Psychological measurement and the replication crisis: Four sacred cows. Canadian Psychology, 61(4), 281-288. https://doi.orR/10.1037/cap0000236 ^Questionable Measurement Practices'" (QMP) Namísto ^measurement" často spíše „schmeasurement" (Flake & Field, 2020). Lilienfeld & Strother (2020): Nedostatečná kvalita měření... ° ... snižuje věrohodnost výzkumných zjištění a ohrožuje interní validitu výzkumu; ° ... snižuje a zkresluje velikosti pozorovaných efektů; ° ... a snižuje reprodukovatelnost a hlavně zobecnitelnost výzkumných zjištění. QMP mohou být jednou z dílčích příčin krize zobecnitelnosti. V důsledku pak nedostatky v měření snižují kvalitu vědy, protože měření v širším slova smyslu je základním nástrojem vědy. Posvátné krávy" měření v psychologii 1. Obsahová validita a spoléhání se na „název" škál. ° Škály se stejným názvem nemusí měřit to stejné. ° Pro připomenutí: klasická testová teorie a operacionalismus. 2. Ignorování chyby měření a reliability v laboratorních experimentech. ° Přesvědčení, že pro výzkum postačuje nižší reliabilita (rovněž i Helmstadter). ° Behaviorální pozorování (vysoce reliabilní) není totožné s měřeným rysem (vztah může být vágní). A jaká je reliabilita experimentální manipulace? 4. Důraz na konvergentní, nikoli divergentní validitu. Konstruktově irelevantní rozptyl, nedostatek diferenciální validity. ° Potíže zejména při výzkumu silně korelovaných jevů. (3. Náročnost sběru dat opravňuje malé velikosti vzorku.) Lilienfeld, S. O., & Strother, A. N. (2020). Psychological measurement and the rep Canadian Psychology, 61(A), 281-288. licati ion crisis: Four sacred cows. Krize replikovatelnosti: jeden z příznaků krize zobecnitelnosti Yarkoni, T. (2020). The generalizability crisis. Behavioral and Brain Sciences [preprint], 1-37. https://doi.org/10.1017/S0140525X20001685 Psychologický výzkum je příliš orientovaný na pozorované proměnné namísto na konstrukty. ° 1. Nedostatek konstruktové validity ve smyslu Cronbacha a Meehla. ° 2. Zanedbání hypotetických zdrojů variability výsledků. Statistické modely jsou jen alternativním „jazykem" k popisu skutečnosti. 0 Při „překladu" našich otázek do jazyka statistiky a výsledků zpět dochází k chybám. Doporučuji Yarkoniho číst až po přednáškách o epistemologii a teorii zobecnitelnosti. Klíčové příznaky krize zobecnitelnosti #1: Psychologové zanedbávají, že různé stimuly, položky dotazníku, operacionalizace konstruktů apod. jsou pouze „vzorky" z univerza/domény „přípustných" vzorků. ° Při „překladu" VO do statistického modelu nejsou operacionalizovány informace o tomto „náhodném" výběru vzorku pozorování. ° Při překladu výsledků zpět nejsou brány v potaz limity vyplývající z operacionalizace. #2: Ignorace náhodného výběru zkresluje odhady parametrů. Druhy efektů1: ° Pevné (fixed) efekty: zpravidla zkoumaný efekt. Není vybrán z domény, je specifický pro danou situaci. Výsledky nechceme generalizovat na jiné pevné efekty. ° Náhodné (random) efekty: kontrolují náhodu spjatou s výběrem prvků z domény. Chceme zobecňovat efekt i na jiné prvky/výběry z dané domény. „Fixed-effect fallacy": V psychologii bývá zpravidla kontrolovaná náhoda spjatá pouze s between-subject variabilitou (lidmi/subjekty). ° Méně často se situací, laboratoří, stimuly a podobně („stimulus-as-fixed effect fallacy"). 1 Ve shodě s Yarkonim (2020) používám terminologii generalizovaného lineárního smíšeného modelu (GLM Příklad 1: Stroopův efekt Příklad: Stroopův efekt. ° Simulace: 20 simulovaných datasetů o 20 osobách. ° Osa X: pozorovaný efekt ve studii. 0 Osay Y: číslo experimentu. Vlevo: between-subject variabilita je ignorovaná. ° Heterogenní výsledky studií. ° Neumožňuje zobecňovat na lidi obecně, ale jen „uvnitř" vzorku. Vpravo: Rozdíl lidí byl do modelu vložen jako náhodný efekt. ° Homogenní výsledky studií. ° Lze zobecňovat na lidi obecně v dané populaci. 20 19 18 17 16 15 14 E 13 as 12 i 11 a3 10 9- 9 (A) Subjects modeled as fixed i—•—i i * i i * i i—•—i i—■—i i—•—t i—•—i i—•—i i—■—i -0.2 0.0 0.2 0,4 0.6 0.8 1,0 1.2 Estimated Stroop effect (B) Subjects modeled as random 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 -0.2 0.0 0.2 0.4 0,6 0.8 Estimated Stroop effect 1.0 1.2 Figure 1, Co = ^ + ^ + ^ del specific Vij a simulated S1 ground truth ť posterior dens ^ subjects r Kf f P\ '2\ ll experim^ U0j ^ JX ^Uj J condition i ordered by the magnitude of the point estimate for visual clai iijt docs not account for random subject sampling, and consequei effect of interest. (B) The random-effects specification in Eq. g , . KJ" (Q \ appropriately calibrated uncertainty estimates. *^ ;3q + ßtXij + um + UiiXij + eij 2 \ Příklad 1: Stroopův efekt Yarkoni (2020, pp. 6): ° „... it is the mismatch between our generalization intention and the model specification that introduces an inflated risk of inferential error, and not the model specification alone/' ° „ Empirical studies in domains ranging from social psychology to functional MRI have demonstrated that test statistic inflation of up to 300% is not uncommon, and that, under realistic assumptions, false positive rates in many studies could easily exceed 60% (Judd et ai, 2012; Westfall, Nichols, & Yarkoni, 2016; Wolsiefer, Westfall, &Judd, 2017)." (A) Subjects modeled as fixed (B) Subjects modeled as random 20 19 18 17 16 15 14 E 13 12 E n o3 10 9- 9 i—•—i i * i i * i i—•—i i—■—i i—•—t i—•—i i—•—i i—■—i -0.2 0.0 0.2 0,4 0.6 0.8 1,0 1.2 Estimated Stroop effect 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 -0.2 0.0 0.2 0.4 0,6 0.8 Estimated Stroop effect 1.0 1.2 Figure 1; Consequences or mismatch between model specification and generalization intention. Each row represents fi simulated Stroop experiment with n = 20 new subjects randomly drawn from the same global population (the ground truth for all parameters is constant over all experiments). Bars display the estimated Bayesian 95% highest posterior density (HPD) intervals for the (fixed) condition effect of interest in each experiment, Experimerits are ordered by the magnitude of the point estimate for visual clarity. (A) The fixed-effects model specification in Eq, (1) docs not account for random subject sampling, and consequently underestimates the uncertainty associated witli the effect of interest. (B) The random-effects specification in Eq. (2) takes subject sampling into account, and produces appropriately calibrated uncertainty estimates. Příklad 2: Verbal overshadowing Velká replikační studie „verbálního zastínění". ° Replikace: Alogna a kol. (2014). ° Originální studie: Schooler a Engstler-Schooler (1990) ° 31 laboratoří, Ntot > 2000. „Originál authors showed that participants who were asked to verbally describe the appearance of a perpetrator caught committing a crime on video showed poorer recognition of the perpetrator following a delay than did partie- ipants assigned to a control task (naming as many countries and capitals as they could)/' Sequence for RRR Study 1 and S&E-S Study 4 Robbery video -44s- Robbery video ::ppr= Write description or list countries/capitals ♦— 5 minutes —^ Filler task 20 minutes - (10 minutes in S&E-S Study 4) Sequence for RRR Study 2 and S&E-S Study 1 mm K . 44s ■ Filler task 20 minutes —> Write description or list countries/capitals 5 minutes —^ t 5 6 7 Lineup identification until response o w 4 LJL° Al 5 Lineup identification 4- until response -> Příklad 2: Verbal overshadowing Study Verbal Control Difference [95% CI] S&E-S STUDY 1 38.6 63.6 I-■-1 -0.25 [ -0.45 , -0.05 ] ONLINE MTURK - Michael, Franco, Sanson, Garry 46.1 56.8 I-■-1 -0.11 [ -0.21 ,-0.01] Alogna, Halbertstadt, Jong, Jackson, Ng Birch Bid, Aucoin Brandimonte Carlson, Weatherford, Carlson Dellapaoiera, Bornstein Delvenne, Brown, Portch, Zaksaite Echterhoff, Kopietz Eggleston, Lai, Gilbert Greenberg, Mugayar-Baldocchi Kehn, Schweitzer, Gamblin, Wiseman, Nunez Koch, Gentry, Shaheed, Buswell Mammarella, Fairfield, Di Domenico McCoy, Rancourt Mitchell, Petro Musselman, Colarusso Poirer, Attaya, McConnaughy, Pappagianopoulos, Sullivan Rubínová, Vranka, Bahník Susa, Swanner, Meissner Thompson Ulatowska, Cislak Wade, Körner, Colloff, Kunar 50 50.9 26.7 46 42.7 36.1 28.3 34.9 34.9 50 46.9 36.7 30 31.7 28.3 23.3 29.5 30.8 22 52.6 57.4 43.3 62 66.7 51.6 48 66.7 56.7 54.2 56.5 36.6 63.3 48 46.7 52 46.3 47.8 46.7 58.5 34 46 61.5 74.5 60 I-■- I-■- I---1 I-■ I-■-1 I-■-1 I-■-1 1-■-1 1-• 1-■- 1-■ 1-"- 1-■-1 1-■- 1-■-1 1--- 1-■-1 1--1-■-1 1-■- 1-■- 1-■- -1 -0.12 [-0.31 , 0.07] -1 -0.16 [-0.34, 0.03] -0.25 [ -0.49 , -0.01 ] ,-1 -0.02 [-0.22, 0.18] -0.24 [ -0.39 , -0.09 ] -0.21 [-0.37,-0.04] -0.26 [ -0.45 , -0.07 ] -0.22 [ -0.42 , -0.01 ] -1 -0.02 [-0.22, 0.19] -1 -0.13 [-0.38, 0.12] ,-1 -0.01 [-0.21 , 0.19] ,-1 -0.101-0.35, 0.15] -0.22 [ -0.41 , -0.03 ] I -0.15 1-0.36, 0.06] -0.20 [ -0.39 , 0.00 ] -0.23 [ -0.47 , 0.00 ] -0.29 [ -0.49 , -0.09 ] ,-1 -0.03 [-0.21 , 0.15] -0.24 [ -0.42 , -0.06 ] '-1 -0.09 [-0.31 , 0.13] H -0.17 [-0.36, 0.02] I -0.17 [-0.34, 0.01 ] Meta-analytic effect for laboratory replications only ♦ -0.16[-0.20,-0.12] I-1-1-1-1-1-1 -0.60 -0.40 -0.20 0.00 0.20 0.40 0.60 Verbal Overshadowing Effect Příklad 2: Verbal overshadowing Silný důkaz pro existenci efektu. Sice nižší než originální, ale rostoucí v čase. Nulová heterogenita výsledků napříč laboratořemi a to včetně MTurk, I2 = 0. Ale: Ve shodě s originálními autory pouze jediná nahrávka a jediný line-up. ° „The strict conclusion [...] is that there is at least one particular video containing one particular face that, when followed by one particular lineup of faces, is more difficult for participants to identify if they previously verbally described the appearance of the target face than if they were asked to name countries and capitals. This narrow conclusion does not preclude the possibility that the observed effect is specific to this one particular stimulus, and that many other potential stimuli the authors could have used would have eliminated or even reversed the observed effect."(Yarkoni, 2020, pp. 8). Pokud by nekontrolované rozdíly ve stimulech (tvářích) 8 owtmeasaed = Q měly velmi malý vliv na pozorování SD=0,05 | o™™,™* = o.os (ve srovnání se zvýšením přesnosti o cca 0,1), |j ounmfMSurfSJ = 0.075 souhrnný efekt přestane být signifikantní. | ^^=0.2 3 -0.G 0.0 0.5 Experimental effect (change in accuracy) Doporučení pro zvýšení replikovatelnosti psychologického výzkumu Asendorpf, J. B., Conner, M., De Fruyt, F., De Houwer, J., Denissen, J. J. A., Fiedler, K., Fiedler, S., Funder, D. C, Kliegl, R., Nosek, B. A., Perugini, M., Roberts, B. W., Schmitt, M., van Aken, M. A. G., Weber, H., & Wicherts, J. M. (2013). Recommendations for Increasing Replicability in Psychology. European Journal of Personality, 27(2), 108-119. https://doi.org/10.1002/per.1919 Doporučení: Design a analýza Zmenšit chybu měření °... zvýšením velikosti vzorku; °... zvýšením statistické síly; °... zvýšením reliability měřícího nástroje; °... korektním užíváním korekcí pro vícenásobná srovnání, ° Užívání postupů typu Bonferroniho korekce snižuje statistickou sílu Od "p<0/05" k... 0... reportování skutečné velikosti p-hodnoty; °... důrazu na ukazatele velikosti účinku; °... důrazu na intervaly spolehlivosti apod. Doporučení: Publikační proces Autoři studií, výzkumníci: transparence. 0 Literature review ve vztahu k dosavadnímu stavu replikace. ° Existují dřívější replikační studie? Podařilo se původní výsledek replikovat? Apod. 0 Zdůvodnění volby velikosti vzorku ° Zveřejnění dat, postupů analýz, work-in-progress, pre-registrací ° Provádění replikací, účast na diskuzích odborné veřejnosti atd. Žurnály, recenzenti, editoři: Podpora dobrých výzkumných praktik. ° Publikování replikací a podpora autorů v této činnosti 0 Ústup od konfirmačního zkreslení v publikačním procesu Doporučení: Vyučující metodologie Aneb: Co mají studenti chtít po svých učitelích? Rigorózní výuka metodologie, statistické analýzy dat apod. ° Statistická síla, velikost účinku, zobecnitelnost atd. ° Informace o replikovatelnosti efektů při výuce jiných kurzů. Podpora transparentnosti. Publikování dat, skriptů apod., analýza takovýchto souborů. Podpora studentských replikací. ° Přínos pro studenty i pro obor. Podpora kritického myšlení. ° Obsahuje studie veškeré podstatné informace? Zvolili výzkumníci vhodnou proceduru pro ověření stanovené hypotézy? Jsou závěry korektně interpretovány? ° Na úrovni jednotlivých studií i v rámci meta-analýz Doporučení: Instituce Změna Publish or Perish politiky: 0 Počet publikací a impact faktor jako rozhodující proměnná při přidělování grantů, přijetí do zaměstnání či kariérním postupu Alternativy: 0 Oceňovania podpora replikační činnosti ° Vynaložení části prostředků v rámci výzkumu na replikaci Doporučení: Obor Přesun od efektů k teoriím. Přesun od dílčích studií k agregaci výzkumného poznání. Větší důraz na způsob, kvalitu a podstatu měření. ° Vzhledem k měřenému atributu. Větší míra standardizace výzkumných nástrojů. Adekvátní statistické postupy. Příklady dobré praxe Registered Replication Report Registered Replication Reports Multi-lab. high-quality implications of impoitant experiments in psychological science along with comments by the authois of the onginal studies Quick Links ■ Mission Statement ■ Article Type Description • Funding Opportunity ■ Instructions for Authors ■ Instructions for Reviewers • Ongoing Replication Projects Mission Statement Replicability is a cornerstone of science. Vet replication studies rarely appear in psychology journals. The new Registered Replication Reports article type in Perspectives on Psychological Science fortifies the foundation of psychological science by publishing collections of replications based on a shared and vetted protocol. It is motivated by the following principles: • Psychological science should emphasize findings that are robust, replicable, and generalirable. • Direct replications are necessary to estimate the true size of an effect. • Well-designed replication studies should be published regardless of the si/e of the effect or statistical significance of the result. What is Preregistration? When you preregisteryour research, you're simply specifying your research plan in advance of your study and submitting it to a registry. Preregistration separates hypothesis-generating (exploratory) from hypothesis-testing (confirmatory) research. Both are important. But the same data cannot be used to generate and test a hypothesis, which can happen unintentionally and reduce the credibility of your results. Addressing this problem through planning improves the quality and transparency of your research. This helps you clearly report your study and helps others who may wish to build on it. For additional insight and context, you can read The Preregistration Revolution, (preprint) 1 A PREREGISTERED i ASPREDICTED 3 Wharton ri RHDUIUTYLM insiTY vf Pennsylvania https://www.cos.io/initiatives/prereg Create a new pre-regi strati on □ Just trying it out; make this pre-reg istration self-destroy in 24 h( See your pre-registrations e™n address you have used in AsPredicted www.osf.io [e.g., to snare with ;t t; AEFre; c^cl 9"= I amount anymore WHAT IS ASPREDICTED? AsPredicted is a platform that makes it easy for researchers to pre-register their studies, and easy for others to read and evaluate those pre-registrations. To pre-register a study on AsPredicted, a researcher answers nine simple questions about their research design and analyses. The platform then generates a time-stamped, single page pdf document that includes a unique U RL for verification. HOW DOES IT WORK? > One author creates the pre-registration. ' Participating authors are emailed, requesting approval. ' If all approve, it is saved but remairs privs:e until an author makes it public: or remains private forever.(Why?) i Authors may share an anonymous version of the pre- registredon with reviewers. > If made public, the final .pdf (sample) is automatically stored in the web-archive. WHAT IF THINGS DON'T GO 'AS PREDICTED'? j can just say so in the paper: ' 'Contrary to expectations, we found that..' > 'Unexpectedly, we also found that...' i 'In addition to the analyses we pre-registered we also ran...' i 'We encountered an unexpected situation, and followed our Standard Operating Procedure'(.pdf) https://aspredicted.org/ = ä&Curate Science HEIA Recently Added FILTER SORT BY Curated Replications {Table Vie1 Curated List of Large-Scale Replication Efforts v Searchable table cf N = 1,127 replications of 168 effects from the cognitive and soci; Examples: "RPP" for Reproducibility Project: Psychology, "HL1" or "ML3" for Many Labs I or 3; "RRR" for Reg, Psychology's Special issue. For Topical searches, :ry 'priming", "archoring", "gambler's fallacy", "love", "moral" ( ©=oper data;