„VALIDITA
a
RELIABILITA“
Nejen v sociálně-vědním výzkumu
•M. Suchanec - díky Hagenaars 2006 and 2007, Campbell & Stanley 1966, Campbell & Cook 1979, Trochim
2006.
•

Organizační diagram
Validita=platnost
jaká, čeho?
Validita
(validity)
Interní
(internal)
Externí
(external)
Závěru/souvislosti
(conclusion,
statistical conclusion,
association)
 Interní
(internal)
Konstruktu
(construct)
Externí
(external)

….jaká, čeho?
•Závěrová = Existuje vztah/souvislost mezi dvěma proměnnými (např. programem a výsledkem)?
•Interní = Za předpokladu, že ano, je vztah kauzální?
•Konstruktová = Za předpokladu, že ano, odpovídá program dobře naši konstrukci programu, a
reflektuje naše měření dobře naši konstrukci měření (Operacionalizovali jsme správně?)
•Externí = Za předpokladu, že ano, můžeme zobecnit tento vztah na jiná nastavení? (osoby, místa,
čas)

Validita ve vztahu k dvěma světům – teorie a měření
•
•    Program
•= to co děláme
•Konstrukce příčiny
•Pozorování / měření =to co vidíme
S   v   ě   t                                                                           t   e   o
r   i   e  (3)
•To co si myslíme
•Vztah mezi programem a výsledkem = to co testujeme  (1)
•Konstrukce výsledku
•
S    v   ě   t      p   o   z   o   r   o   v   á   n   í   /   m   ě   ř   e   n   í
•Kostrukce Příčina-důsledek
•Operacionalizace (2)
•Operacionalizace proces překladu konstruktu do jeho manifestací (projevů) (2)
•
(1)Závěrová + interní = svět pozorování / měření
(2)Konstruktová = spojení mezi teorií a pozorovaným světem
(3)Externí = rozsah naší teorie

•Závěrová = existuje vztah mezi programem a výsledkem?
Validita je kumulativní
•
•Interní = je vztah kauzální?
•Externí=můžeme zobecňovat na jiné podmínky?         (osoby, místa, čas)
•Konstruktu = můžeme zobecňovat zjištění na kostrukty?
•„Olymp“ = dosažení komplexní validity
•Ilustrace=schody každý  je postavený na předchozích
•Kumulativnost Každá otázka  předpokládá kladnou odpověď na předchozí otázky

Závěrová validita
•4 možnosti a 2 chyby našeho rozhodnutí o vztahu:
•vztah existuje a my ho najdeme - správně
• vztah existuje a my ho nenajdeme – chyba!
•vztah neexistuje a my ho nenajdeme -správně
•vztah neexistuje a my ho najdeme – chyba!
•
•Závěrová vs. interní – pouze vztah vs. je vztah kauzální?
•
Tzv. „rybaření“ = snaha manipulovat výsledky tím, že opakovaně analyzujeme data za lehce změněných
podmínek
•„Hledání jehly v kupce sena“ – dva problémy: maličká jehla a příliš mnoho sena - otázka poměru
„Signál : Šum“
•Zdroje šumu (=hrozby závěrové validity):
•1.Nízká spolehlivost nástroje měření/testu (špatná konstrukce dotazníku)
•2. Nízká spolehlivost implementace programu (program je implementován v rozporu s teorií)
•3. Náhodné irelevance v prostředí (ruch z ulice)
•4. Náhodná heterogenita respondentů (každý pes jiná ves)
•
•Zdroje signálu
•1.Opravdová síla vztahu
•
•
•Nízká statistická síla testu
•související komponenty: 1. velikost vzorku 2. velikost efektu 3. alfa úroveň 4. síla testu
•

•Existuje alternativní příčina výsledku?
Interní validita
•Školní program na zvýšení matematické gramotnosti žáků
•Matematická gramotnost žáků
•
•
•Žáci sledovali v TV pořad „Počítání s Mirkem“
•X

Hrozby interní validity 1
1.Historie – událost mezi pre a post testem
• př. účastník APZ souběžně absolvoval i jiný program, který by    zvýšil jeho šanci na nalezení
zaměstnání, popřípadě by například získal práci přes svého známého.
•
•2.     Zrání – přirozené procesy (stárnutí, růst)
• Př. Účastník APZ se právě nachází v období, kdy je již obvyklé, že si uchazeč najde práci, a
tudíž by si ji našel i bez programu. Alternativně, uchazeč se postupem času může stávat zkušenější
v hledání práce.
•
•3. Testování – pre-test ovlivňuje post-test
• př. V případě, že je test stejný, může se účastník test naučit, popřípadě první test ho může
motivovat k tomu, aby v druhém testu dosáhl lepšího výsledku.
•

4.Instrumentace – změna v nástroji měření nebo výzkumníka (struktura dotazníku, změna pozorovatele)
• př. změna lektorů, kdy jejich hodnocení bude ovlivněno jejich subjektivními a vzájemně se
lišícími metodami.
•
•5. Úmrtnost – nenáhodné „odpadávání“ ze studie
• př. Nemotivovaní opustí program a míra motivace zároveň ovlivňuje úspěšnost na trhu práce
•
•Hrozby interní validity 2

•6. Regrese k průměru – nenáhodný vzorek který podrobíme programu (např. žáci s nejhoršími
výsledky) bude v post-testu blíže k průměru než v pre-testu (podmínkou je normální distribuce
populace)
•
•7. Selekce – kontrolní vs. programová skupina nejsou stejné a tyto různosti zahrnují faktory jež
ovlivňují výsledek
• př. zdroje selekce: a) absence randomizačního procesu, b) samovýběr, c) existence určitých
výběrových kritérií pro přijetí do programu, která souvisí s úspěšností programu, (např. výběr
nejvíce znevýhodněných nezaměstnaných).
•
•
Hrozby interní validity 3

Ilustrace hrozeb interní validity
• X    O
•Čas (t)
•t
•t +1
•X = vystavení / expozice programu / události / léčbě / opatření (exposure)
•O = měření / pozorování efektu expozice (observation)
•Př. Učitel učí své žáky matematiku a po pololetí je vyzkouší a zjistí že matematiku umí ….usoudí,
že je dobrý učitel……
•Co když ale žáci uměli matematiku už předtím než je začal učit?
•

Ilustrace hrozeb interní validity
•….je zapotřebí zjistit (O1) na jaké úrovni byli jeho dítka předtím než je začal učit nebo (viz
další slajd)…
•O1         X    O2
•t
•t +1
•t +2
•Čas (t)
•….ale co když mezi testy (01 a 02) děti sledovaly pořad „počítáme s Mirkem“? = hrozba historie!
•….a co když se děti prostřednictví testu 01 naučili lépe zvládnout stejný test 02 = hrozba
testování!
•….a co když test 01 byl méně náročný než test 02 = hrozba instrumentace!

Ilustrace hrozeb interní validity
•X    O1
•O2
•Čas (t)
•t +1
•t
•Skupina
•testovaná
•kontrolní
•….porovnat výsledky svých žáků s výsledky žáků které matematiku neučil.
•…Co když ale jeho žáci mají pod čepicí a jsou z výběrové třídy, zatímco žáci které neučil jsou z
poloviny diskalkulici? = hrozba selekce!

Ilustrace hrozeb interní validity
•Skupina
•testovaná
•kontrolní
•Čas (t)
•t
•t +1
•t +2
•t +3
•R   O1       X   O2
•R   O3            O4
•X = vystavení / expozice programu / události / léčbě / opatření (exposure)
•O = měření / pozorování efektu expozice (observation)
•R = nahodile (např. kostka) přiřadíme žáky do obou skupin (randomization)
•…nahodile (např. kostka) přiřadíme žáky do obou skupin tak aby jejich charakteristiky byly náhodně
rozptýlené J

•Operacionalizovali jsme správně?
–a) přeložili jsme správně naše myšlenky nebo teorie do našeho programu?
–b) operacionalizovali jsme správně náš konstrukt do jeho manifestací (projevů)?
Konstruktová validita

•Validita „překladu“
–Zjevná (face) validita
–Obsahová validita
•Validita ve vztahu k vnějšímu kritériu (criterion-related)
–Prediktivní validita
–Konkurenční validita
–Souběžná (convergent) validita
–Rozlišující, též „založená na členství ve známé skupině (discriminant)
Konstruktová validita

•Validita „překladu“
–Jak „přesně“ jsme přeložili konstrukt
–Správnost operacionalizace na základě teoretické „reflexe“ – teoretická definice konstruktu vs.
jeho operacionalizace
•

–Zjevná (face) validita
•Nejslabší způsob posouzení konstruktové validity
•Porovnám operační definice (test, obsah aktivit programu) s jeho nálepkou („matematická
schopnost“, „program rekvalifikace“)
–Obsahová validita
•Stanovíme kritéria naplnění programu př. „program prevence těhotenství mladistvých“ (cílová
skupina, preventivní vs. léčebný, obsahová kritéria: základní informace o těhotenství a prevenci)
•Pouze programy naplňující kritéria jsou obsahově validní
•

•Validita ve vztahu k vnějšímu kritériu (criterion-related)
–„Chová se“ operacionalizovaný konstrukt v souladu s teorií?
–rozdíl obsahová vs. kriteriální
•Obsahová : srovnává konstrukt vs. konstrukt
•Kriteriální: srovnává konstrukt vs. výkon
•

–Prediktivní validita
•Porovnává předpověď s výsledky
•Schopnost predikovat něco co by měl být schopen predikovat
•Např. náš test matematické schopnosti je validní, pokud žáci, kteří na něm dopadli dobře mají i
dobré výsledky ve škole
–Konkurenční, též „validita založená na členství ve známé skupině“
•Schopnost rozlišit lidi, které by test měl být schopen rozlišit
•Např. náš test posouzení maniodeprese by měl od sebe oddělit lidi s maniodepresí a schizofreniky
•Test „rasisimu“ v rasistických uskupeních by měl vykazovat jiné výsledky než stejný test v obecné
populaci
•

–Souběžná (convergent) validita
•Mezi výsledky našeho testu aritmetických schopností a jiného testu stejných schopností by měla být
vysoká korelace
–Rozlišující (discriminant)
•Mezi výsledky našeho testu aritmetických schopností a cizího testu verbálních schopností by měla
být nízká korelace
•
•

Konstruktová validita
1.Špatná definice významu konstruktu
2.Použití jediné verze programu v jednom čase místě zabraňuje zachycení plné šíře konceptu programu
3.Použitím jediného způsobu měření „sebedůvěry“ nelze dokázat že opravdu měříme „sebedůvěru“
4.Skupina podstupující program se zároveň účastní jiných programů
5.Efekt programu zahrnuje efekt testování
6.Zmatečné označení konstruktu (lék namísto určitá dávka léku)
•
•Hrozby

Externí validita
•Můžeme zobecňovat na jiná nastavení?
• (lidé, čas, místo)
1.nenáhodný vzorek
2. lokální, časová specifika
•hrozby

Reliabilita
• =
• spolehlivost
•
•      opakovatelnost
•
• konzistence

Teorie klasického testu
truescor
•var(X) = var(T) + var (eX)
•
•Reliabilita (0,1) = var (T) / var (X)

measerr1 measerr2 measerr3
•Náhodná chyba:
•Při statistickém testu se někteří studenti cítí špatně (pili alkohol, nespali), někteří dobře
(strávili den toulkou v přírodě se svou láskou) – průměrný výsledek vzorku se namění
•Systematická chyba:
•Při testu je ruch z ulice, pořád někdo chodí do místnosti – ovlivněno jedním směrem (negativně) je
více studentů – průměr vzorku se mění
•
Jak chyby eliminovat?
1)Pilotovat výzkumný nástroj
2)Pokud sběr dat probíhá pomocí rozhovorů nebo pozorováním, trénovat výzkumníky
3)Pozorně přepisovat data do počítače
4)Použít statistické procedury
5)Triangulovat (použít více měřících a analytických technik)
6)

Odhad reliability
• protože neznáme var (T), lze reliabilitu jen odhadnout - pomocí korelace:
•Kovariance (X1, X2)  / sd(X1) * sd(X2)
•Nalevo: sdílený rozptyl mezi X1 a X2 indikuje var(T) neboť T je to jediné co X1 a X2 sdílejí
(chyby jsou různé)
•Napravo: měříme-li totéž jen s mírným zpožděním, očekáváme že sd(X1)=sd(X2), potom sd(X1)*sd(X2) =
sd(X1)2 = var(X)
•Tedy (X1, X2)  / sd(X1) * sd(X2)
• = var (T) / var (X)
•
•korelace mezi dvěma pozorováními stejného měření je odhadem reliability
•
•
•
•
•

Typy reliability
•1) Konzistence mezi výzkumníky
–Míra shody mezi různými výzkumníky pozorujícími stejnou věc
•2) test-retest reliabilita
–Konzistence mezi dvěma měřeními stejné věci (stejnými testy) v různých časech
•3) Parallel-Forms Reliability
–Konzistence mezi výsledky dvou paralelních testů konstruovaných stejným způsobem
•4) Interní konzistence testu
–konzistence výsledků mezi dvěma polovinami stejného testu
•4a) split-half reliabilita – reliabilita dvou půlek
•4b) Reliabilita Cronbachovy alfy
•

Konzistence mezi výzkumníky
•Lidé = nekonzistentní, rozptýlení, unavení, sní, dezinterpretují
•2 způsoby
–Nominální proměnné – procentuální shoda
–Spojité proměnné - korelace
•Zvýšení konzistence – trénink
•Předpoklad: záznam (test/pozorování) vyplňují výzkumníci
intrater

test-retest reliabilita
•Stejný test stejnému vzorku ve 2 různých časech
•Čím větší prodleva, tím nižší korelace (čím menší prodleva více podobné faktory způsobují chybu v
měření)
•Předpoklad: krátká časová prodleva
testret.gif (3593 bytes)

Reliabilita paralelních forem testu
•Vytvořím velkou sadu otázek posuzující stejný konstrukt (např. spokojenost)
•náhodně rozdělím na dvě sady
•Každou sadu dám stejnému vzorku
•Korelace mezi dvěma sadami je odhad reliability
•
paraform.gif (2555 bytes)

Reliabilita mezi jednotlivými otázkami testu
(inter-item rel.)
•Spočítáme korelaci mezi každým párem otázek
•6 otázek = 15 párů = 15 korelací
•Průměr 15 korelací je odhadem reliability
avintitm.gif (5786 bytes)

Split-half reliabilita – reliabilita dvou půlek
•Náhodně rozdělíme všechny otázky které mají měřit stejný konstrukt do dvou sad
•Výsledná korelace mezi dvěma sadami je odhadem reliability
splithlf.gif (5804 bytes)

Cronbachova alfa
•Průměr všech korelací mezi všemi možnými kombinacemi dvou půlek testu
•
cronalph.gif (5078 bytes)
•%