PSYb2520
Statistická analýza dat v psychologii II
Přednáška 3
Pokročilá využití regresního modelu

Mnohonásobná lineární regrese
o
oY = b0 +b1X1 + b2X2 + … + bkXk  +  e
n
n
n
n

Osnova
oCentrování prediktorů
oVkládání prediktorů po blocích - porovnávání modelů
oKategorické prediktory, kontrasty
oInterakce-moderace
oMediace
oOdhad potřebné velikosti vzorku
oLineární regrese pomocí GENLIN

Interpretace Y‘ a regresních koeficientů
Y‘ = b0 +b1X1 + b2X2 + … + bkXk
n
oY‘ predikovaná hodnota je podmíněný průměr Y, M(Y|Xi), tj. průměr lidí s danými hodnotami Xi
nKdybychom sehnali náhodný vzorek lidí, kteří mají stejnou hodnotu u všech prediktorů, pak by Y‘
měla být rovna průměru jejich Y a jejich rozptyl je roven reziduálnímu rozptylu … pokud jsou
předpoklady modelu splněny.
nV tomto smyslu je predikovaná hodnota očekávanou hodnotou E(Y|Xi)
oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, pokud by ostatní
prediktory zůstaly nezměněné (≈semiparciální r); jedinečný přínos
obi; BETA vyjadřuje nárůst Y’ při nárůstu Xi o 1SD v násobcích SD Y pokud by ostatní prediktory
zůstaly nezměněné(≈semiparciální r)
oB0 ; b0 – obtížně interpretovatelný průsečík … leda by prediktory byly centrované
oV různých modelech nemusí být vliv prediktoru stejný
o
o

Centrování – usnadnění interpretace
oPrůsečík = predikovaná hodnota Y‘, když má prediktor hodnotu 0. Hodnota 0 mnohdy není smysluplnou
hodnotou prediktoru….
o
oC: Transformace prediktoru, aby 0 byla průměrem
nPREDIKTOR_C = PREDIKTOR – MPREDIKTOR
oNásledným podělením SD bychom dospěli k z-skórům. Tím bychom ale přišli o měřítko.
o
oPrůsečík pak udává predikci pro člověka, který má průměrnou hodnotu všech prediktorů
n

Příklad centrování
odeprese ~ selfe, effi
o
oCOMPUTE selfeC=selfe-3.058621.
oCOMPUTE effiC=effi-2.743662.
oEXECUTE.
o
oREGRESSION   /DEPENDENT deprese   /METHOD=ENTER selfe effi.
oREGRESSION   /DEPENDENT deprese   /METHOD=ENTER selfeC effiC.

o
o


o


Možnosti práce s modely
1.Odhadneme model, který jsme plánovali.
2.Odhadneme řadu modelů, s postupně se rozšiřující sadou prediktorů
nhierarchická regrese
3.Necháme nějaký algoritmus vybrat nejlepší sadu prediktorů z dostupných
nstepwise algoritmy
o

Hierarchická lineární regrese
oBloková, se sadami (sets) prediktorů
oPrediktory vkládáme po skupinách (popř. jednotlivě) v teoreticky zdůvodněném pořadí
oTeoreticky zdůvodněné pořadí umožňuje rozdělit rozptyl Y na smysluplné části (variance
partitioning)
nZměna pořadí prediktorů změní velikost těch částí
nSmysluplnost se odvozuje právě od toho, kterými prediktory je rozptyl Y vysvětlen.
oZajímá nás schopnost sady prediktorů vylepšit model
nSrovnání různých oblastí vlivu na zkoumaný jev
nZkoumání inkrementální validity
n
n

Obvyklá řazení bloků
oDle času, kauzální priority
nPř. od dispozičním k situačním…
oOd známých k neznámým vlivům
nStat. kontrola intervenujících proměnných
oPodle výzkumné relevance
nOd ústředních po „co kdyby“; maximalizace síly
o

Srovnávání modelů po blocích
oPo vložení bloku sledujeme, zda došlo k nárůstu R2 oproti předchozímu modelu
oTest signifikance nárůstu R2
nJe-li A 1. blok prediktorů a B 2., H0: R2Y.AB – R2Y.A = 0
nTestová statistika
n
odfčitatel=kB (počet proměnných v bloku B)
odfjmenovatel=n-kA-kB-1
oSPSS to počítá zaškrtnutím „R squared change“

Upozornění
oI když je přidávání bloků v SPSS provedeno automaticky jedním příkazem, nezapomínejme, že jde o
sérii samostatných (obyčejných) regresních modelů.
nHierarchická regrese tedy není zvláštním typem regrese, regresního modelu.
n
oUvnitř jednotlivých modelů nezáleží na pořadí prediktorů.
nMůžeme také říci, že uvnitř bloků nezáleží na pořadí.
o

Interpretace v hierarchické regresi
oPřírůstek R2
oPokles není možný, minimem je nulový nárůst.
oČasto nás zajímá, jestli je vskutku nějaký nárůst (H0 není jen formální)
oZměna b
oPokud byl prediktor v dřívějším bloku, zajímá nás jeho změna
oMožný je pokles i nárůst, vč. změny znaménka, nově přidané prediktory mění význam b
oVelikost změn souvisí s tím, jak moc spolu prediktory korelují
oPokles – nově přidané prediktory asi vysvětlují Y tou částí svého rozptylu, kterou sdílí s
prediktorem, jehož b poklesl
oNárůst – nově přidané prediktory asi vysvětlují část rozptylu prediktoru, jehož b narostl, a tato
část rozptylu vůbec nesouvisí s Y.
nEfekt suprese, „Simpsonův paradox“,
n

Příklad hierarchické regrese se supresí.
oFieldovy modelky.


o


Použití kategorických prediktorů
oPrediktorem může být i kategorická proměnná
odichotomická
ona dichotomie transformovaná
o

Příklad s pohlavím
oZměna kódování na 1=muž, 0=žena (MUŽ)
oRECODE POHLAVI (1=1) (2=0) INTO MUZ.
oEXECUTE.
oFREQ MUZ.
oT-TEST GROUPS=pohlavi(1 2)  /VARIABLES=deprese.
oRegrese s proměnnou MUŽ jako jediným prediktorem
oREGRESSION   /DEPENDENT deprese   /METHOD=ENTER muz.
o


Je-li kategorický prediktor kódovaný 0/1…
nDEP‘=2,064 - 0,126*MUZ
nJe-li MUZ=0, pak  DEP‘ = 2,064 - 0,126*0 = 2,064
oPři pouze jednom prediktoru udává b0 průměr skupiny kódované 0
nJe-li MUZ=1, pak  DEP‘ = 2,064 - 0,126*1 = 1,938
oPrůměr skupiny kódované 1 je roven b0+bMUZ
o… jeho regresní koeficient udává, o kolik se liší průměr skupiny kódované 1 od skupiny kódované 0.
oPři kódování 2/0 by udával polovinu rozdílu….
o

Předpoklady regrese
stále platí                                  (kinda)


Kategorické prediktory s k hodnotami
Dummy coding ->dummy variables
ok−1 dichotomických proměnných nesoucích informaci obsaženou v původní kategorické p.
oIndikátorové kódování (indicator coding)
nPro každou hodnotu vyjma jedné vytvoříme proměnnou, kde bude mít respondent 1, pokud tuto hodnotu
má, jinak 0
nZbylá hodnota = referenční kategorie, i.e. ten, kdo má všechny dummies = 0
oZahrnutí všech k-1 dummy proměnných mezi prediktory
n
n

Vzdělání matky
Původní kód
Indikátorové kódování – 3 nové dummy proměnné
vm_zak
vm_vyu
vm_str
základní
1
1
0
0
vyučena
2
0
1
0
střední
3
0
0
1
vysokoškolské
4
0
0
0

o
o
o
o
o
o
o
o
o
o
orecode vzdel_ma (1=1) (2=0) (3=0) (4=0) into vm_zak.
orecode vzdel_ma (1=0) (2=1) (3=0) (4=0) into vm_vyu.
orecode vzdel_ma (1=0) (2=0) (3=1) (4=0) into vm_str.
oexecute.
o

oREGRESSION   /DEPENDENT deprese   /METHOD=ENTER vm_zak vm_vyu vm_str.


Jsou-li dummy kódované 0/1…
nDEP‘=1,95 + 0,18vm_zak + 0,09vm_vyu + 0,05vm_str
nJe-li VŠ, pak  DEP‘ = 1,95 + 0,18*0 + 0,09*0 + 0,05*0
oPři jednom kat. prediktoru udává b0 průměr referenční skupiny (kódované 0 ve všech dummy)
nJe-li SŠ, pak  DEP‘ = 1,95 + 0,18*0 + 0,09*0 + 0,05*1 =2,00
oPrůměr skupiny dané dummy je roven b0+bH
o… jejich regresní koeficienty udávají, o kolik se liší průměr skupiny dané dummy proměnnou od
referenční skupiny.

Interpretace regresních koeficientů dummy proměnných
oY = b0 +bA1XA1 + bA2XA2 + … + bmXm  +  e
oIndikátorové kódování
nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou, ceteris
paribus
nbAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční
skupině
nb0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině
oTesty koeficientů jsou ekvivalentní t-testům rozdílu průměrů mezi indikovanou a referenční
skupinou
o

Jiné než indikátorové kódování
oDummy proměnné nám umožňují srovnávat průměry skupin – ale dostaneme jen některá srovnání – volba
referenční skupiny!
oMáme-li více než 2 skupiny, roste množství srovnání, které bychom mohli chtít učinit.
nPř. VŠ vs nižší vzdělání matky? SŠ vs VYU?
oTomu odpovídá i široká paleta způsobů jimiž můžeme vytvořit dummy proměnné.
oKONTRASTY (contrasts)
n


Moderace(interakce)
o


Moderace(interakce)
oModerací se rozumí situace, kdy vztah mezi prediktorem a outcomem je jiný v různých skupinách
vynezených kategorickou proměnnou – MODERÁTOREM
oHistoricky moderace = tlumení vztahu

Moderace konceptuálně
o
Prediktor
Outcome
Moderátor

Moderace jako součást lineárního modelu
o
Prediktor
Outcome
Moderátor
Prediktor*Moderátor

Moderace jako součást lineárního modelu
oZávislou tak predikujeme pomocí
nprediktoru
nmoderátoru  (nelze ho vynechat!)
ninterakčního členu, který si jako novou proměnnou spočítáme jako násobek prediktoru a moderátoru
oY = b0 +bXX + bMM + bXMXM  +  e
o

Příklad moderace
oZávislá: Selfe – self-esteem
oPrediktor: warm_o – vřelost otce
oModerátor: pohlaví
o
oRECODE POHLAVI (1=1) (2=0) INTO MUZ.
oCOMPUTE VOxMUZ=warm_o*MUZ.
oEXECUTE.
o
oREGRESSION /DEPENDENT selfe
o           /METHOD=ENTER warm_o MUZ VOxMUZ.
o

oSELFE‘=2,4 + 0,2warm_o – 0,5MUZ + 0,2VOxMUZ
oInterpretace
oJe-li MUZ=0, pak SELFE‘=2,4 + 0,2warm_o
oJe-li MUZ=1, pak  SELFE‘=2,4 + 0,2warm_o – 0,5 + 0,2(warm_o*MUZ)
n SELFE‘=2,4 + 0,2warm_o – 0,5 + 0,2warm_o
n SELFE‘=2,4 + 0,4warm_o – 0,5
obX udává efekt X na Y ve skupině, kde M=0
obMX udává, o kolik je efekt X na Y větší, když M=1
oObecně: bMX udává, o kolik se mění bX při jednotkové změně M
n
n
o
o

Moderace - zobrazení
oSimple slopes – regresní přímky pro vybrané hodnoty moderátoru (všechny, -1SD, M, 1SD)
o

Graf můžeme vyrobit v Excelu…
o


oalternativně online tvořítka na grafy jako např. https://www.desmos.com/calculator
onebo R


Závěrečné poznámky k moderaci
oModerátor může být i spojitá proměnná.
nPak je dobré ji centrovat (popř. i prediktor), aby byla interpretace jednodušší (bX při M=0) a aby
se snížila kolinearita
oObecnějším termínem pro moderaci je interakce – může být mezi všemi typy proměnných a realizuje se
stejně, tj. násobením
oInterakce může být i vyššího řádu – 3 i více proměnných. Prudce rostou nároky na interpretaci.
oPROCESS – plugin do SPSS usnadňující odhadování modelů s moderací (a dalších modelů) – viz Field
o
o
o

o


MEDIACE
oMODERACE a MEDIACE jsou prototypickým zapojením třetí proměnné do vztahu mezi dvěma proměnnými
oMODERÁTOR je obvykle kategorická proměnná, která mění (historicky snižuje-moderuje) těsnost vztahu
mezi X a Y
oMEDIÁTOR je proměnná, skrze níž se odehrává vztah mezi X a Y. Vztah mezi X a Y je pouze zdánlivý,
protože X ve skutečnosti ovlivňuje Mediátor a Mediátor následně ovlivňuje Y.
oTerminologii a statistiku v tomto směru ustavili před 25 lety Baron a Kenny,
http://davidakenny.net/kenny.htm
o

MEDIACE
o
o
Prediktor
X
Závislá
Y
Mediator
M

MEDIACE (Baron-Kenny, moderně)
1.X predikuje Y:   regr. koef. c  (celkový efekt)
2.X predikuje M:  regr. koef. a
3.M predikuje Y, je-li X kontrolována regr. koef. b
4.Efekt X na Y po zařazení M (c‘, přímý efekt) klesne (ideálně na 0)
5.Nepřímý efekt X na Y (přes M) (ab) se statisticky významně liší od 0 – Sobelův test
6.
X
Y
Mediator
Sobel test statistic:
a
b
c (c‘)

http://quantpsy.org/sobel/sobel.htm
http://www.danielsoper.com/statcalc3/calc.aspx?id=31

Mediace - příklad
1.Regrese DEP na SE
Self esteem
Deprese
Neshody s rodiči
c = -0,50

Mediace - příklad
2.Regrese Neshod na SE
Self esteem
Deprese
Neshody s rodiči
c = -0,50
a = 0,33

Mediace - příklad
3.Regrese DEP na Neshody a SE
Self esteem
Deprese
Neshody s rodiči
c = -0,50
a = 0,33
b = -0,27

Mediace - příklad
4.Snížení c?
Self esteem
Deprese
Neshody s rodiči
c = -0,50   c‘ = -0,41
a = 0,33
b = -0,27

Mediace - příklad
5.Velikost nepřímého efektu
oVelikost = a.b = 0,33*0,27= 0,09
oČást. standardizovaná = 0,09/SDdeprese = 0,19
oz=0,09/odm(0,272.0,0432+0,332.0,0242)=6,3, p<0,001
Self esteem
Deprese
Neshody s rodiči
c = -0,50   c‘ = -0,41
a = 0,33
b = -0,27
Sobel test statistic:

Mediace – příklad - PROCESS
ohttp://www.processmacro.org/index.html
o

Velikost mediačního (nepřímého) účinku
oZáleží na tom, co chceme komunikovat
oAbsolutní: Nestandardizovaná i standardizovaná a*b
nefekt jednotkové změny prediktoru v jednotkách závislé (násobíme-li b, je to v SD)
oRelativní vůči celkovému účinku a*b/c  či vůči přímému účinku a*b/c‘
nintuitivní, ale nestabilní, zrádné kvůli možné změně znamének
oR2 vysvětlené mediačním efektem (Field 11.11)
nPodíl rozptylu Y vysvětlený tou částí rozptylu, kterou X a M sdílí.
o
o

Mediace – závěrečné poznámky
oMediační model je explicitně kauzální – je třeba umět obhájit směr šipek.
oIntervaly spolehlivosti (i SE) na nepřímé efekty jsou spolehlivěji stanovovány bootstrapem
(PROCESS)
oTato podoba mediačního modelu je mezistupněm mezi regresí a SEM modely
o

o


POWER ANALÝZA
REGRESNÍHO MODELU
oG*Power - http://www.gpower.hhu.de/

H0: R2=0
of2=R2/(1-R2)
R2

H0: DR2=0
of2=DR2/(1-R2)
DR2
1-R2
N prediktorů v
testovaném bloku
N prediktorů
celkem

H0: bi=0
oPokud nás zajímá jen 1 prediktor, je to jako testovat, zda jeho přidání v samostatném závěrečném
bloku přidá nějaký R2.
oPokud nás zajímá k prediktorů, upravíme a na a/k a počítáme jako pro 1 prediktor (počítáme se
stejnou velikostí účinku

Síla testu a velikost vzorku v MLR
Přibývá nový faktor síly testu: množství prediktorů


o


Lineární regrese jako submodel
generalizovaného lineárního modelu
o

o


o
KATEGORICKÉ
METRICKÉ
VOLBA
REFERENČNÍ K.

o
Které z prediktorů
zahrnout do modelu?
Chceme vytvořit i
interakční člen?

o
Nechat být.
Při podezření na heteroskedascitu, zvolit robustní estimátor

o
PŘESNĚJŠÍ, POMALEJŠÍ
KONTRASTY

o
ZDE MOŽNOST ZVOLIT
 KONTRASTY
PRO KATEGORICKÉ
S VÍCE KATEGORIEMI

o