VALIDITA A REPLIKACE
POL 565 11. 10. 2016
Co je validita výzkumu?
• K čemu to je?
• Jak ji hodnotíme?
• Kdo ji posuzuje?
Validita
• Co jsme se dozvěděli na základě našich dat a
jak moc tomu můžeme věřit?
– Výsledky, které platí (tedy jsou pravdivé) pro danou
populaci a které jsou natolik robustní, že je lze
zobecnit i mimo studovanou populaci.
• Validita je přibližná pravdivost vědecké
inference nebo tvrzení (Morton a Williams
2010).
• K čemu ale vztahujeme tu pravdivost?
• Dělení na INTERNÍ a EXTERNÍ validitu
(Campbell 1957)
Jak chápat validitu?
• Interní validita:
– Přibližná pravdivost inference nebo tvrzení v
rámci cílové populace
• Externí validita:
– Přibližná pravdivost inference nebo tvrzení pro
pozorování mimo cílovou populaci, která je
předmětem výzkumu.
• Jaká je logika validity experimentálního
výzkumu v tomto tradičním dělení validity?
– Pomůcka: Jaké jsou silné a slabé stránky
experimentu?
Validita (Cronbach 198)
• Kauzální validita
• Statistická validita
• Konstruktová validita
• Externí validita
Statistická validita
• Udává, zda existuje statisticky významná
kovariace mezi proměnnými a zda je tento
vztah dostatečně silný.
• Otázka statistické analýzy dat.
• Je vztah signifikantní? Co když je na
hranici významnosti 5 %?
• Jsou splněny základní statistické
předpoklady (distribuce proměnných,
homogenita rozptylu atd.), je vhodné
použít neparametrické testy?
Statistická validita
• Statistická replikace jako metoda ověřování
statistické validity
• Jiný vzorek dané populace (při zachování
konstruktové validity)
• Nebo stejný vzorek a jiné statistické nástroje
(při zachování konstruktové validity)
• Problémy se statistickou validitou objeveny v
psychologickém výzkumu
• Program StatCheck replikuje analýzu, řada
nesrovnalostí a chyb ve většině z
testovanýcn 50 tis. článků (Nijuten a
Hartgerink. 2015)
Statistická validita
• V některých případech statistické replikace
odhaleny podvody
• Kauza LaCour a umělé generování dat ve
field experimentu v Californii (LaCour a
Green 2014)
Kauzální validita
• Typicky považována za silnou stránku
experimentu
• Srovnání s observačním výzkumem?
• Udává, zda vztahy, které výzkumník
identifikuje v dané populaci, jsou kauzální.
• Udává, zda změna v nezávislé proměnné
přináší změnu v závislé proměnné.
• Zda lze vyloučit kauzální vztah mezi
nezávislou proměnnou a ostatními faktory
Konstruktová validita
• Udává, zda jsou inference odvozené z dat platné
pro danou teorii (teoretické konstrukty), která je
testována.
• Typicky zaměňována za “interní validitu”
• Jsou proměnné sledované designem dobrou
reprezentací proměnných implikovaných v teorii?
• Jsou ostatní proměnné konstantní?
• Mají subjekty informace, které předpokládá teorie?
• Mají subjekty stejnou možnost behaviorální
reakce, jakou předpokládá teorie?
• Jsou měřící nástroje vhodné?
Konstruktová validita ve vztahu k
externí validitě
• Pro zobecnění je konstruktová validita klíčová
• Pokud máme pozitivní výsledky ve studii s
vysokou konstruktovou validitou, je to dobrý
základ pro teoretické implikace pro JINÉ
POPULACI
• Pokud máme negativní výsledky ve studii s
vysokou konstruktovou validitou na jedné
populaci, může vzniknout nový teoretický
předpoklad (vztahující se opět k jiné populaci
než v originální studii)
Hrozby interní validity
• Treatment neovlivňuje subjekty podle
teoretického předpokladu
– Např. nízká pozornost, nedůvěra
– Neschopnost vyvolat zkoumaný fenomén (př.
Sociální vyloučení, strach atd.)
– Ohrožena konstruktová i kauzální validita
• Úmrtnost v experimentu – pokud k ní dojde po
náhodném přiřazení k treatmentu
• Nedodání treatmentu hrozí především u field
experimentů (kauzální validita)
Hrozby IV
• Správná operacionalizace proměnných
• Nahrazování klíčových proměnných lépe
měřitelnými koncepty
• Experimentátor nemanipuluje treatment
(kvaziexpeirmenty, přírodní experimenty)
• Non-compliance, nedostatečné testování
• U psychologických experimentů vadí, když
subjekty uhodnou cíl experimentu
• Sociální desirabilita
Externí validita
• Zobecnitelnost mimo zkoumanou populaci
• Teorie jsou obecně platné. Jsou obecně platné i
výsledky experimentu?
• Odpovídají exp. subjekty skutečnému světu?
Odpovídá treatment stimulům v běžném světě?
Odpovídá experimentální kontext kontextu v
reálném světě?
• Achillova pata experimentálního výzkumu?
• Politické vědy jsou posedlé externí validitou (Rose
McDermott 2010).
• Často zaměňována za EKOLOGICKOU
VALIDITU: otázka prostředí, odpovídá
zkoumanému prostředí IRL?
Externí validita
• Externí validita musí být ustavena na základě
empirických důkazů
• EV je otázkou VĚDECKÉ REPLIKACE k
testování stejných teoretických konstruktů
– Na nové populaci
– Na novém vzorku
– Za použití jiného nastavení
– Za specifikace environmentálních podmínek
– Stress test: změna v experimentální protokolu,
aniž bychom měli teoretickou predikci, co bude
znamenat. Pokud předpoklad původní teorie
neplatí, není teorie robustní.
Příklad: Druckman, McDermott 2008.
Replikace Kahnemana a Tverskyho
Představte si, že USA se připravuje na epidemie
neobvyklé asijské nemoci, na kterou dle očekávání
zemře 600 lidí. Zvažují se dva alternativní programy
pro boj s nemocí. Který program zvolíte:
A: Pokud bude přijat, bude zachráněno 200 lidí
B: Pokud bude přijat, s 1/3 pravděpodobností bude
600 lidí zachráněno a se 2/3 pravděpodobností
nikdo nebude zachráněn.
Vs.
A: Pokud bude přijat, zemře 400 lidí.
B: Pokud bude přijat, s 1/3 pravděpodobností nikdo
nezemře a se 2/3 pravděpodobností 600 lidí zemře.
Příklad: Druckman, McDermott
2008
• Představte si, že komunita, ve které bydlíte,
získala 3000 $ z vládního grantu na rozvoj.
Peníze budou muset být okamžitě
investovány do jednoho ze dvou programů.
• Y: Když bude přijat, komunita získá 1000$.
• Z: Když bude přijat, s 50% šancí komunita
získá 2000$ a s 50% nezíská nic.
Vs.
• Y: Když bude přijat, komunita ztratí 2000$.
• Z: Když bude přijat, s 50% šancí komunita
ztratí 2000$ a s 50% neztratí nic.
Externí validita – hrozby a slabiny
• Ekologická validita
– Odpovídá experimentální prostředí
skutečnému prostředí?
– Vysoký stupeň umělosti! Především v
laboratoři.
– Vysoká míra kontroly prostředí implikuje jeho
umělost.
– Jak je na tom fMRI?
– Důraz na věcný realismus
Věcný vs. experimentální realismus
• Experimentální realismus:
– Dokáže experiment vyvolat v subjektech ty
procesy, které teorie předpokládá?
– Jsou subjekty dostatečně zaujaté?
– Dokáže zamýšlená manipulace vyvolat to, co
chceme?
– Jde o psychologickou zkušenost subjektů
– Pokud není, co se stane? Co to znamená pro
validitu?
Věcný vs. experimentální realismus
• Jaká je validita
Milgramových
experimentů?
Věcný vs. experimentální realismus
• Wasler, Aronson a Abrahams 1966:
– subjekty četly noviny, ve kterých byl článek o
trestním stíhání v Portugalsku
– Framing experiment
– Vysoký věcný realismus, čtení novin odráží
skutečný život
– Nízký experimentální realismus: studenti v
experimentu nebyli ovlivněni manipulací
Vzorky
• Lze zobecnit výsledek na základě dat
nenáhodného vzorku?
• Nejčastější nenáhodný vzorek jsou
studenti.
• Vidíte nějaký potenciální problém?
Studentské vzorky
• Sears 1986: studentské vzorky jsou příliš
úzká datová základna
• Systematicky se liší od celkové populace
• Slabě vyvinuté identity a sebe-pochopení
• Slabé a nekonsistentní postoje
• Snadno ovlivnitelní vnějšími faktory
• Spory o to, jak se studentské vzorky liší od
celkové populace.
Studentské vzorky
• Miller a Krosnick 2000: studenti mají
menší zkušenosti s politickými
kampaněmi, liší se efekty (priming
experimenty)
• Druckman a Kam (2011): studenti se neliší
v klíčových proměnných
– Stranická identita, ideologie, politické postoje
na témata imigrace či homosexuality, zájem o
politiku, konzumace médií
Studentské vzorky
• Je pro validitu experimentálního výzkumu
důležité, jak moc studenti odpovídají
parametrům celé populace?
• Ne nezbytně!
• Cílem experimentu není vyvození
obecných závěrů.
• Cílem experimentu je testování teorie.
• Externí validita je otázkou REPLIKACE
Online “pracovníci”
• Amazon Mechanical Turk
– Online crowdsourcing platforma
– Profesionální subjekty
– Nereprezentativní vzorky
– Vysoká dostupnost
– Jak moc jsou to kvalitní vzorky?
Amazon Mturk
• Mullinix et al.: porovnání reprezentativního
vzorku, studentů, zaměstnanců univerzity,
lidí odchytnutých ve volební místnosti
(volby 2012)
• Replikace 3 framing experimentů:
studentské půjčky, hate rally, imigrace,
• Srovnatelný směr i velikost efektů
• Replikace 20 experimentů s původně
reprezentativní vzorky v Mturk.
• Srovnatelný směr i velikost efektů
Mullinix et al. 2016
Mullinix et al. 2016
Google Consumer Survey
• Kratší design (max 10 otázek)
• Krátké otázky
• Automatický sběr demografických dat přes
Google
• Santoso, Stein a Stevnson 2016: replikace 3
(klasických) experimentů
– Rámování sociálních dávek jako pomoci chudým
– Asijská nemoc
– List experiment
• Systematicky menší efekty: důsledek nízké
pozornosti ze strany subjektů
Nereprezentativní vzorky
• Nevíme, jak se vztahují k cílové populaci teorie
• Heterogenita treatmentu, ne na všechny působí
stejně, můžeme mít vzorek, ve kterém absentují
nebo naopak převažují zprostředkující proměnné
– Někdy lze odhadnout, změřit a zahrnout do analýzy
– Je nutné uvážit, zda je daný vzorek vhodný (např. u
studentů a ideologií)
• Hrozba nízké pozornosti u online vzorků: ohrožen
experimentální realismus, konstruktová validita
• Řešení? Lze ji měřit?
• Indikátorem je latence odpovědí
• Změna subjektů v čase, souvisí s
“profesionalizací” (především online vzorky)
Je některý typ validity důležitější?
Máme něco upřednostnit?
Interní validita vs. Eexterní validita?
• Větší Interní validita vede k nižší externí
validitě (laboratoř)
• Větší externí validita vede k nižší interní
validitě (field)
• Je možné interní validity brát jako nutnou
podmínku externí validity.
– Můžeme zobecňovat mimo zkoumanou populaci,
pokud naše výsledky nejsou dostatečně pravdivé
v rámci zkoumané populace?
Replikace
• Nutný předpoklad ověřování validity a
robustnosti v experimentálním výzkumu
• Znovuvytvoření podmínek pro reprodukci
výsledků na nových datech,
• Známé i neznámé faktory mohou moderovat
rozdíl ve velikosti efektů
• Neschopnost replikace mohou značit false
positive originálního výzkumu nebo false
negative replikace
• Důraz na transparentnost, zveřejnění
experimentálního protokolu i datových matic
(často podmínka publikace)
Replikační krize: problémy
experimentálního výzkumu
• Netransparentnost
• Publikační bias
• P-Hacking (researcher degree of freedom)
– Ukončení sběru dat když p<.05
– Analýza mnoha vztahů, reportování jen těch, kde
p<.05
– Existence mnoha podmínek, reportování je těch,
kde p<.05
– Použití kovariátů k dosažení p<.05
– Vyřazení participantů k dosažení p<.05
– Transformace dat k dosažení p<.05
• Nedostatečné specifikace podmínek
Replikační krize?
• Open Science Collaboration 2015 (270
autorů):
– Replikace 100 psychologických experimentů
– Snaha reprodukovat originální efekty (effect size)
– Pozitivní výsledek: 35 případů
– Reprodukce velikost efektu (v 95% CI efektu
replikovaného výsledku) – úspěšná v 47,4 %
– V 82 případech byly původní velikosti efektu větší
– Neznamená to neplatnost teorií, v originálním
výzkumu nemuselo jít nutně o false positive
(mohou působit neočekávané nepozorované
faktory), publikační bias
– Problém není omezen jen na psychologii
Replikační krize?
• Gilbert et al.: původní replikační projekt
nedokázal větně replikovat původní
experimenty
• Popisují rozdíly mezi šesti původními
experimenty a jejich replikacemi
• Zpochybnění replikačního přístupu
• Debata pokračuje, Susan Fiske obviňuje
psychologickou obec z “metodologického
terorismu”
Důsledky?
• Některé teorie odvolány.
• D. Carney, spoluautorka vlivné a populární
studie o POWER POSING (Carney,
Cuddy, Yap 2010):
“As evidence has come in over these past
2+ years, my views have updated to reflect
the evidence. As such, I do not believe that
“power pose” effects are real.”