PSY252
Statistická analýza dat v psychologii II
Přednáška 3
Pokročilá využití regresního modelu

Mnohonásobná lineární regrese
o
oY = b0 +b1X1 + b2X2 + … + bkXk  +  e
n
n
n
n

Osnova
oCentrování prediktorů
oKategorické prediktory, kontrasty
oInterakce-moderace
oMediace
oOdhad potřebné velikosti vzorku
oLineární regrese pomocí GENLIN

MLR: Interpretace regresních koeficientů
oY = b0 +b1X1 + b2X2 + … + bkXk  +  e
n
oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech
ostatních prediktorů (≈semiparciální korelace); jedinečný přínos
nK porovnání síly prediktoru v různých skupinách, modelech, vzorcích
obi; bi*; BETA vyjadřuje nárůst Y’ při nárůstu Xi o 1;  jsou-li Xi i Y standardizovány, při
kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos
nk porovnání prediktorů mezi sebou v rámci jednoho modelu
nk porovnání různě operacionalizovaného prediktoru v různých modelech
nukazatel velikosti účinku
ob0 – obtížně interpretovatelný průsečík … leda by prediktory byly centrované
oV různých modelech nemusí být vliv prediktoru stejný
o
o

Centrování – usnadnění interpretace
oPrůsečík = predikovaná hodnota, když má prediktor hodnotu 0. Hodnota 0 mnohdy není smysluplnou
hodnotou prediktoru….
o
oC: Transformace prediktoru, aby 0 byla průměrem
nPREDIKTOR_C = PREDIKTOR – MPREDIKTOR
oNásledným podělením SD bychom dospěli k z-skórům. Tím bychom ale přišli o měřítko.
o
oPrůsečík pak udává predikci pro člověka, který má průměrnou hodnotu všech prediktorů
n

Příklad centrování
odeprese ~ selfe, effi
o
oCOMPUTE selfeC=selfe-3.058621.
oCOMPUTE effiC=effi-2.743662.
oEXECUTE.
o
oREGRESSION   /DEPENDENT deprese   /METHOD=ENTER selfe effi. oREGRESSION   /DEPENDENT deprese
/METHOD=ENTER selfeC effiC.

o
o


Použití kategorických prediktorů
oPrediktorem může být i kategorická proměnná
odichotomická
ona dichotomie transformovaná
o

Příklad s pohlavím
oZměna kódování na 1=muž, 0=žena (MUŽ)
oRECODE POHLAVI (1=1) (2=0) INTO MUZ.
oEXECUTE.
oFREQ MUZ.
oT-TEST GROUPS=pohlavi(1 2)  /VARIABLES=deprese.
oRegrese s proměnnou MUŽ jako jediným prediktorem
oREGRESSION   /DEPENDENT deprese   /METHOD=ENTER muz.


Je-li kategorický prediktor kódovaný 0/1…
nDEP‘=2,064 - 0,126*MUZ
nJe-li MUZ=0, pak  DEP‘ = 2,064 - 0,126*0 = 2,064
oPři pouze jednom prediktoru udává b0 průměr skupiny kódované 0
nJe-li MUZ=1, pak  DEP‘ = 2,064 - 0,126*1 = 1,938
oPrůměr skupiny kódované 1 je roven b0+bMUZ
o… jeho regresní koeficient udává, o kolik se liší průměr skupiny kódované 1 od skupiny kódované 0.
oPři kódování 2/0 by udával polovinu rozdílu….
o

Předpoklady regrese
stále platí                                  (kinda)


Kategorické prediktory s k hodnotami
Dummy coding ->dummy variables
ok−1 dichotomických proměnných nesoucích informaci obsaženou v původní kategorické p.
oIndikátorové kódování (indicator coding)
nPro každou hodnotu vyjma jedné vytvoříme proměnnou, kde bude mít respondent 1, pokud tuto hodnotu
má, jinak 0
nZbylá hodnota = referenční kategorie, i.e. ten, kdo má všechny dummies = 0
oZahrnutí všech k-1 dummy proměnných mezi prediktory
n
n

Vzdělání matky
Původní kód
Indikátorové kódování – 3 nové dummy proměnné
vm_zak
vm_vyu
vm_str
základní
1
1
0
0
vyučena
2
0
1
0
střední
3
0
0
1
vysokoškolské
4
0
0
0

o
o
o
o
o
o
o
o
o
o
orecode vzdel_ma (1=1) (2=0) (3=0) (4=0) into vm_zak.
orecode vzdel_ma (1=0) (2=1) (3=0) (4=0) into vm_vyu.
orecode vzdel_ma (1=0) (2=0) (3=1) (4=0) into vm_str.
oexecute.
o

oREGRESSION   /DEPENDENT deprese   /METHOD=ENTER vm_zak vm_vyu vm_str.


Jsou-li dummy kódované 0/1…
nDEP‘=1,95 + 0,18vm_zak + 0,09vm_vyu + 0,05vm_str
nJe-li VŠ, pak  DEP‘ = 1,95 + 0,18*0 + 0,09*0 + 0,05*0
oPři jednom kat. prediktoru udává b0 průměr referenční skupiny (kódované 0 ve všech dummy)
nJe-li SŠ, pak  DEP‘ = 1,95 + 0,18*0 + 0,09*0 + 0,05*1 =2,00
oPrůměr skupiny dané dummy je roven b0+bH
o… jejich regresní koeficienty udávají, o kolik se liší průměr skupiny dané dummy proměnnou od
referenční skupiny.

Interpretace regresních koeficientů dummy proměnných
oY = b0 +bA1XA1 + bA2XA2 + … + bmXm  +  e
oIndikátorové kódování
nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou; sig
bAi znamená sig rozdílu
nbAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční
skupině
nb0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině
oTesty koeficientů jsou vlastně t-testy rozdílu průměrů mezi indikovanou a referenční skupinou

Jiné než indikátorové kódování
oDummy proměnné nám umožňují srovnávat průměry skupin
oMáme-li více než 2 skupiny, roste množství srovnání, které bychom mohli chtít učinit.
nPř. VŠ vs nižší vzdělání matky? SŠ vs VYU?
oTomu odpovídá i široká paleta způsobů jimiž můžeme vytvořit dummy proměnné.
oKONTRASTY (contrasts)
n


Moderace(interakce)
o


Moderace(interakce)
oModerací se rozumí situace, kdy vztah mezi prediktorem a outcomem je jiný v různých skupinách
vynezených kategorickou proměnnou – MODERÁTOREM
oHistoricky moderace = tlumení vztahu

Moderace jako součást lineárního modelu
o
Prediktor
Outcome
Moderátor

Moderace jako součást lineárního modelu
o
Prediktor
Outcome
Moderátor
Prediktor*Moderátor

Moderace jako součást lineárního modelu
oZávislou tak predikujeme pomocí
nprediktoru
nmoderátoru
ninterakčního členu, který si jako novou proměnnou spočítáme jako násobek prediktoru a moderátoru
oY = b0 +bXX + bMM + bXMXM  +  e
o

Příklad moderace
oZávislá: Selfe – self-esteem
oPrediktor: warm_o – vřelost otce
oModerátor: pohlaví
o
oRECODE POHLAVI (1=1) (2=0) INTO MUZ.
oCOMPUTE VOxMUZ=warm_o*MUZ.
oEXECUTE.
o
oREGRESSION /DEPENDENT selfe
o           /METHOD=ENTER warm_o MUZ VOxMUZ.
o

oSELFE‘=2,4 + 0,2warm_o – 0,5MUZ + 0,2VOxMUZ
oInterpretace
oJe-li MUZ=0, pak SELFE‘=2,4 + 0,2warm_o
oJe-li MUZ=1, pak  SELFE‘=2,4 + 0,2warm_o – 0,5 + 0,2(warm_o*MUZ)
n SELFE‘=2,4 + 0,2warm_o – 0,5 + 0,2warm_o
n SELFE‘=2,4 + 0,4warm_o – 0,5
obX udává efekt X na Y ve skupině, kde M=0
obMX udává, o kolik je efekt X na Y větší, když M=1
oObecně: bMX udává, o kolik se mění bX při jednotkové změně M
n
n
o
o

Moderace - zobrazení
oSimple slopes – regresní přímky pro vybrané hodnoty moderátoru (všechny, -1SD, M, 1SD)
o

Graf můžeme vyrobit v Excelu…
o


oalternativně online tvořítka na grafy jako např. https://www.desmos.com/calculator
onebo R


Závěrečné poznámky k moderaci
oModerátor může být i spojitá proměnná.
nPak je dobré ji centrovat (popř. i prediktor), aby byla interpretace jednodušší (bX při M=0)
oObecnějším termínem pro moderaci je interakce – může být mezi všemi typy proměnných a realizuje se
stejně, tj. násobením
oInterakce může být i vyššího řádu – 3 i více proměnných. Prudce rostou nároky na interpretaci.
oPROCESS – plugin do SPSS usnadňující odhadování modelů s moderací (a dalších modelů) – viz Field
o
o
o

o


MEDIACE
oMODERACE a MEDIACE jsou prototypickým zapojením třetí proměnné do vztahu mezi dvěma proměnnými
oMODERÁTOR je obvykle kategorická proměnná, která mění (historicky snižuje-moderuje) těsnost vztahu
mezi X a Y oMEDIÁTOR je proměnná, skrze níž se odehrává vztah mezi X a Y. Vztah mezi X a Y je pouze
zdánlivý, protože X ve skutečnosti ovlivňuje Mediátor a Mediátor následně ovlivňuje Y.
oTerminologii a statistiku v tomto směru ustavili před 25 lety Baron a Kenny,
http://davidakenny.net/kenny.htm
o

MEDIACE
o
o
Prediktor
X
Závislá
Y
Mediator
M

MEDIACE (Baron-Kenny, moderně)
1.X predikuje Y:   regr. koef. c
2.X predikuje M:  regr. koef. a
3.M predikuje Y, je-li X kontrolována regr. koef. b
4.Efekt X na Y po zařazení M (c‘) klesne (ideálně na 0)
5.Nepřímý efekt X na Y (přes M) (a.b) se statisticky významně liší od 0 – Sobelův test
6.
X
Y
Mediator
Sobel test statistic:
a
b
c (c‘)

http://quantpsy.org/sobel/sobel.htm
http://www.danielsoper.com/statcalc3/calc.aspx?id=31

Mediace - příklad
1.Regrese DEP na SE
Self esteem
Deprese
Neshody s rodiči
c = -0,50

Mediace - příklad
2.Regrese Neshod na SE
Self esteem
Deprese
Neshody s rodiči
c = -0,50
a = 0,33

Mediace - příklad
3.Regrese DEP na Neshody a SE
Self esteem
Deprese
Neshody s rodiči
c = -0,50
a = 0,33
b = -0,27

Mediace - příklad
4.Snížení c?
Self esteem
Deprese
Neshody s rodiči
c = -0,50   c‘ = -0,41
a = 0,33
b = -0,27

Mediace - příklad
5.Velikost nepřímého efektu
oVelikost = a.b = 0,33*0,27= 0,09
oČást. standardizovaná = 0,09/0,47 = 0,04
oz=0,09/odm(0,272.0,0432+0,332.0,0242)=6,3, p<0,001
Self esteem
Deprese
Neshody s rodiči
c = -0,50   c‘ = -0,41
a = 0,33
b = -0,27
Sobel test statistic:

Mediace – příklad - PROCESS
ohttp://www.processmacro.org/index.html
o

Mediace – závěrečné poznámky
oMediační model je explicitně kauzální – je třeba umět obhájit směr šipek. oIntervaly spolehlivosti
na nepřímé efekty jsou spolehlivěji stanovovány bootstrapem (PROCESS) oTato podoba mediačního
modelu je mezistupněm mezi regresí a SEM modely
o

o


POWER ANALÝZA
REGRESNÍHO MODELU
oG*Power - http://www.gpower.hhu.de/

H0: R2=0
of2=R2/(1-R2)
R2

H0: DR2=0
of2=DR2/(1-R2)
DR2
1-R2
N prediktorů v
testovaném bloku
N prediktorů
celkem

H0: bi=0
oPokud nás zajímá jen 1 prediktor, je to jako testovat, zda jeho přidání v samostatném závěrečném
bloku přidá nějaký R2. oPokud nás zajímá k prediktorů, upravíme a na a/k a počítáme jako pro 1
prediktor (počítáme se stejnou velikostí účinku

Síla testu a velikost vzorku v MLR
•Přibývá nový faktor síly testu: množství prediktorů


o


Lineární regrese jako submodel
generalizovaného lineárního modelu
o

o


o
KATEGORICKÉ
METRICKÉ
VOLBA
REFERENČNÍ K.

o
Které z prediktorů
zahrnout do modelu?
Chceme vytvořit i
interakční člen?

o
Nechat být.
Při podezření na heteroskedascitu, zvolit robustní estimátor

o
PŘESNĚJŠÍ, POMALEJŠÍ
KONTRASTY

o
ZDE MOŽNOST ZVOLIT
 KONTRASTY
PRO KATEGORICKÉ
S VÍCE KATEGORIEMI

o


Hrátky s prediktory
oPrediktory lze do modelu vložit všechny najednou, jednotlivě, nebo po skupinkách oPorovnáváme tak
vlastně mnoho modelů lišících se zahrnutými prediktory.
oVše najednou = ENTER
oPostupně po jednom = FORWARD
oVše a postupně ubírat = BACKWARD
oPo blocích, blockwise = ENTER + další blok

Hierarchická lineární regrese
oBloková, se sadami (sets) prediktorů
oPrediktory vkládáme po skupinách (popř. jednotlivě) v teoreticky zdůvodněném pořadí
oTeoreticky zdůvodněné pořadí umožňuje rozdělit rozptyl Y na smysluplné části (variance
partitioning)
nZměna pořadí prediktorů změní velikost těch částí
oZajímá nás schopnost sady prediktorů vylepšit model
nSrovnání různých oblastí vlivu na zkoumaný jev
nZkoumání inkrementální validity
n
n

Obvyklá řazení bloků
oDle času, kauzální priority
nPř. od dispozičním k situačním…
oOd známých k neznámým vlivům
nkontrola intervenujících proměnných
nMinimalizace chyby 1. typu
oPodle výzkumné relevance
nOd ústředních po „co kdyby“; maximalizace síly
o

Obvyklý postup regresní analýzy
oNa základě teoretických rozvah stanovíme různé modely, jejichž srovnání je potenciálně zajímavé
oNejjednodušší srovnání je u hierarchických modelů, kdy je jeden model plně vnořen do následujícího
– to umožňuje testovat inkrement R2 oAž v druhé řadě se zabýváme jednotlivými regresními
koeficienty v modelu, který je nejúplnější/nejlepší

o


Diagnostika 1: Outliery a vlivné případy
oNemají některé případy příliš velký vliv na výsledky regrese?
oOutliery – mohou zvyšovat i snižovat b
nRezidua –  případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3
nVlivné případy – případy, které nejvíc ovlivňují parametry
oCo se stane s parametry regrese, když případ odstraníme?
oDFBeta – rozdíl mezi parametrem s a bez, standardizované > 1
oDFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou)
oCookova vzdálenost > 1
oLeverage > 2(k+1)/n  , kde k = počet prediktorů, n= velikost vzorku
oPřípady s vysokými rezidui či vlivné případy NEODSTRAŇUJEME
o…leda by šlo o zjevnou chybu v datech či vzorku
o…leda by nám šlo výhradně o zpřesnění predikce (nikoli o testy hypotéz)

Studentizace je jako standardizace, ale namísto dělení směrodatnou chybou odhadu se dělí chybou
reflektující to, že rezidua (pozorovaná, na rozdíl o random errors, které odhadujeme) mají směrem k
extrémům menší variabilitu (protože extrémní hodnoty více ovlivňují směrnici).

Daignostika 2: Kolinearita
oKdyž 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný
oKomplikuje porovnávání síly preditorů
oSnižuje stabilitu odhadu parametrů
oV extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje
o
oKorelace nad 0,9
oTolerance (= 1/VIF) cca pod 0,1
o(VIF (= 1/tolerance) cca nad 10)
o
oI při korelacích kolem 0,5 komplikuje interpretaci!!

Diagnostika 3: Předpoklady regrese
oZávislá alespoň intervalová, prediktory intervalové i kategorické
oAbsence vysoké kolinearity (žádné r > 0,9, tolerance < 0,1)
oNeexistence intervenující proměnné, která by korelovala se závislou i prediktory oHomoskedascita
(scatterplot  ZRESID x ZPRED, parciální scatterplot)
oNezávislost reziduí (Durbin-Watson = 2)
oNormálně rozložená rezidua (histogram, P-P)
oLinearita vztahů
o
o
o

o


MLR: Shoda modelu s daty: R2
oČást rozptylu Y vysvětleného dohromady všemi prediktory
oPredikční síla sady prediktorů
oUkazatel velikosti účinku
oR: Mnohonásobná (mutiple) korelace
oVždy nadhodnocuje >> při replikaci vychází nižší R2
nshrinkage correction – Adjusted (upravené) R2
oWherry (SPSS, Statistica) –kdybychom model dělali z cenzových dat
ncross-validation
oStein (Field) – očekávané R2 při replikaci
osplit-sample analýza
o
•X1
•X2
•X3
•Y

Úkol
o1. Rozpracujte model predikující SDQ z minulého zadání
oZ původních prediktorů nechejte mum_neg a child_age
oDo modelu zařaďte moderaci efektu mum_neg pohlavím (child_gender).
o
o2. Proměnnou mum_neg transformujte na pořadovou proměnnou podle tercilů – hodnoty v 1. tercilu
budou mít hodnotu 1, 2. tercilu 2, 3. tercilu 3.  S transformovanou proměnou zopakujte analýzu 1.
Co se změnilo?
oZ analýz sepište zprávu v souladu s konvencemi.
oOdevzdejte do pondělí – do 14 hodin.