PSY252
Statistická analýza dat v psychologii II
Přednáška 2
{Mnohonásobná, vícenásobná} lineární regrese
Multiple linear regression

REGRESE, JAK JSME SI JI PŘEDSTAVILI V PSY117
o


Dlouhodobá adaptace sluchu
hlasitost [%]
výdrž [s]
25
5
31
9
55
20
42
13
47
18
53
17
40
15
35
10
28
10
•Jak dlouho vydrží lidé nepříjemný hlasitý zvuk?
•
•Lze využít informaci o tom, zda člověk poslouchá osobní přehrávač na vysokou hlasitost [% z maxima
přehrávače] k odhadu výdrže nepříjemného zvuku?

1. Popisné statistiky
o


2. Popis vztahu
o


Jakou čarou tvar proložit


o


Lineární regrese I. - MODEL
oJe-li Pearsonova korelace dobrým popisem vztahu mezi hlasitostí a výdrží, lze vztah popsat,
modelovat lineární funkcí:
oV’ = b0 +b1H
nb1 směrnice
nb0 průsečík
oV = V’ + e
oV = b0 +b1H + e
oPozorování=Model+Chyba
o
o
oOdhad parametrů a, b?
oMetodou nejmenších čtverců (OLS)
o
o
o
o

3. Odhad parametrů modelu
o
o

Lineární regrese II. – příklad
•mh=39,6
•sh = 10,7
•mv=13,0
•sv = 4,9
•r = 0,95
výdrž’ = 0,43.hlasitost − 4,15

Namalovat pár bodů

Novinky oproti PSY117
oRegr. koeficienty jsou b0 (průsečík, a, (constant)) a b1(směrnice, b)
oBeta – standardizovaný regresní koeficient.
nO kolik víc násobku SD proměnné Y predikujeme člověku, který má o 1SD proměnné X víc. S jedním
prediktorem = r.
oTesty jednotlivých regresních koeficientů.
nTestují H0: bk=0.      (t=b/SEb, t-rozložení s df=N-k-1, )
o
o

Jak dobrý je model?
Predikované hodnoty a rezidua
hlasitost [%]
výdrž [s]
výdrž’ [s]
reziduum [s]
25
5
6,69
-1,69
31
9
9,29
-0,29
55
20
19,70
0,30
42
13
14,06
-1,06
47
18
16,23
1,77
53
17
18,83
-1,83
40
15
13,19
1,81
35
10
11,02
-1,02
28
10
7,99
2,01

4. Rezidua a jejich rozložení
oLineárně regresní model předpokládá normálně rozložená rezidua.
oNenaplnění tohoto předpokladu
nzpůsobuje nepřesný odhad S.E.
nMůže být způsobeno…
onenormalitou závislé
onelinearitou vztahu
nlze mnohdy korigovat transformací

Lineární regrese III. – úspěšnost predikce
oKritériem kvality modelu jsou nyní nejmenší
očtverce – jak malé jsou nejmenší čtverce?
o
oPozorování = Model + Chyba
oChyba = Pozorování – Model
oSuma čtverců chyb (deviance, ssres) = S(Vi−Vi‘)2
oRozptyl chyb (s2res) = S(Vi−Vi‘)2/(N-1) =
o                               = deviance / df
o
o
regrese2

Lineární regrese III. – úspěšnost predikce
oR2 = sV‘2 / sV2
o
oKoeficient determinace (R2)
oPodíl rozptylu vysvětleného modelem
oJe ukazatelem kvality, úspěšnosti regrese
oVyjadřuje shodu modelu s daty
o
regrese2

Lineární regrese IV. – předpoklady, platnost
oPředpoklady oprávněnosti použití lineárního modelu
ojako u Pearsonovy korelace
okonceptuální předpoklad: vztah je ve skutečnosti lineární
orezidua mají normální rozložení
o s průměrem 0
ohomoskedascita
n=rozptyl reziduí (chyb odhadu)
n se s rostoucím X nemění
o
o
o
o
oPlatnost modelu je omezena daty, z nichž byl získán, a teorií.
nExtrapolace, neoprávněná extrapolace (»jako generalizace nad rámec empirických dat)
nPozor na odlehlé hodnoty – jako u všech ostatních momentových statistik
n
regrese4

Konstanta jako model
oM: všem predikujeme stejnou hodnotu c
oY‘ = c  , Y = c + e
oDeviance = S(Yi−c)2
oDeviance je nejnižší, když c = mY
oDeviance = S(Yi−mY)2
os2res = S(Yi−mY)2 / (N-1)  … tedy s2Y
os2reg = 0 a tedy i R2=0
oNulový model

Novinky oproti PSY117
oAdjusted R2 – jak velké R2 bychom čekali, kdybychom analýzu dělali na celé populaci (ne vzorku).
Overfitting.
oANOVA – test H0: R2=0.
oStandard error of the estimate - sres
o
https://en.wikipedia.org/wiki/Overfitting

o
o


Mnohonásobná lineární regrese
oVíce prediktorů, lepší model?
o
oK čemu je?
oJak moc přispívá proměnná X k predikci jevu Y?
nInkrementální validita
oLiší se muži a ženy v proměnné Y, i když zohledníme intervenující proměnnou Z?
nStatistická kontrola
oJe měřítko A lepším prediktorem než B? (lépe pomocí r)
o
o

Mnohonásobná lineární regrese
oPočet prediktorů není teoreticky omezen
nY = (b0 +b1X1 + b2X2 + … + bkXk )+  e
o
oProblémy plynoucí z většího množství prediktorů
nVýpočetní komplikace
nKorelace mezi prediktory komplikují interpretaci – (multi)kolinearita
nOtázka „pořadí“ prediktorů
nMožnost neintuitivních výsledků – př. suprese
n
nVíce příležitostí k rybaření
nMéně příležitostí si uvědomit omezenost modelu
nMnožství dat více motivuje k přeskočení detailního se seznamování s daty a prozkoumávání  naplnění
předpokladů
nZapomínání na to, že prioritou je model jako celek
n
n
n
n

Příklad Long1
ozáv:  deprese
opred: selfe, effi, duv_r, duv_v
o
oCelý soubor

MLR: Interpretace regresních koeficientů
oY = b0 +b1X1 + b2X2 + … + bkXk  +  e
n
oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech
ostatních prediktorů (≈semiparciální korelace); jedinečný přínos
nK porovnání síly prediktoru v různých skupinách, modelech, vzorcích
obi; bi*; BETA vyjadřuje nárůst Y’ při nárůstu Xi o 1;  jsou-li Xi i Y standardizovány, při
kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos
nk porovnání prediktorů mezi sebou v rámci jednoho modelu
nk porovnání různě operacionalizovaného prediktoru v různých modelech
nukazatel velikosti účinku
ob0 – obtížně interpretovatelný průsečík … leda by prediktory byly centrované
oV různých modelech nemusí být vliv prediktoru stejný
o
o

MLR: Interpretace regresních koeficientů
oY = b0 +b1X1 + b2X2 + … + bkXk  +  e
n
oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech
ostatních prediktorů (≈semiparciální korelace); jedinečný přínos
oVýznam b lze vysoudit i dosazením do regresní rovnice
o
oCentrování prediktorů usnadňuje přímou interpretaci regresních koeficientů
nPrůsečík pak udává predikci pro člověka, který má průměrnou hodnotu všech prediktorů
o
o

Hrátky s prediktory
oPrediktory lze do modelu vložit všechny najednou, jednotlivě, nebo po skupinkách oPorovnáváme tak
vlastně mnoho modelů lišících se zahrnutými prediktory.
oVše najednou = ENTER
oPostupně po jednom = FORWARD
oVše a postupně ubírat = BACKWARD
oPo blocích, blockwise = ENTER + další blok

Hierarchická lineární regrese
oBloková, se sadami (sets) prediktorů
oPrediktory vkládáme po skupinách (popř. jednotlivě) v teoreticky zdůvodněném pořadí
oTeoreticky zdůvodněné pořadí umožňuje rozdělit rozptyl Y na smysluplné části (variance
partitioning)
nZměna pořadí prediktorů změní velikost těch částí
oZajímá nás schopnost sady prediktorů vylepšit model
nSrovnání různých oblastí vlivu na zkoumaný jev
nZkoumání inkrementální validity
n
n

Obvyklá řazení bloků
oDle času, kauzální priority
nPř. od dispozičním k situačním…
oOd známých k neznámým vlivům
nkontrola intervenujících proměnných
nMinimalizace chyby 1. typu
oPodle výzkumné relevance
nOd ústředních po „co kdyby“; maximalizace síly
o

Obvyklý postup regresní analýzy
oNa základě teoretických rozvah stanovíme různé modely, jejichž srovnání je potenciálně zajímavé
oNejjednodušší srovnání je u hierarchických modelů, kdy je jeden model plně vnořen do následujícího
– to umožňuje testovat inkrement (nárůst) R2 oAž v druhé řadě se zabýváme jednotlivými regresními
koeficienty v modelu, který je nejúplnější/nejlepší

Suprese


o
o


o
o


Diagnostika 1: Outliery a vlivné případy
oNemají některé případy příliš velký vliv na výsledky regrese?
oOutliery – mohou zvyšovat i snižovat b
nRezidua –  případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3
nVlivné případy – případy, které nejvíc ovlivňují parametry
oCo se stane s parametry regrese, když případ odstraníme?
oDFBeta – rozdíl mezi parametrem s a bez, standardizované > 1
oDFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou)
oCookova vzdálenost > 1
oLeverage > 2(k+1)/n  , kde k = počet prediktorů, n= velikost vzorku
oPřípady s vysokými rezidui či vlivné případy NEODSTRAŇUJEME
o…leda by šlo o zjevnou chybu v datech či vzorku
o…leda by nám šlo výhradně o zpřesnění predikce (nikoli o testy hypotéz)

Studentizace je jako standardizace, ale namísto dělení směrodatnou chybou odhadu se dělí chybou
reflektující to, že rezidua (pozorovaná, na rozdíl o random errors, které odhadujeme) mají směrem k
extrémům menší variabilitu (protože extrémní hodnoty více ovlivňují směrnici).

Daignostika 2: Kolinearita
oKdyž 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný
oKomplikuje porovnávání síly preditorů
oSnižuje stabilitu odhadu parametrů
oV extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje
o
oKorelace nad 0,9
oTolerance (= 1/VIF) cca pod 0,1
o(VIF (= 1/tolerance) cca nad 10)
o
oI při korelacích kolem 0,5 komplikuje interpretaci!!

Diagnostika 3: Předpoklady regrese
oZávislá alespoň intervalová, prediktory intervalové i kategorické
oNenulový rozptyl prediktorů
oAbsence vysoké kolinearity (žádné r > 0,9, tolerance < 0,1)
oNeexistence intervenující proměnné, která by korelovala se závislou i prediktory oHomoskedascita
(scatterplot  ZRESID x ZPRED, parciální scatterplot)
oNezávislost reziduí (Durbin-Watson = 2)
oNormálně rozložená rezidua (histogram, P-P)
oNezávislost jednotlivých případů
oLinearita vztahu
o
o
o

o


MLR: Shoda modelu s daty: R2
oČást rozptylu Y vysvětleného dohromady všemi prediktory
oPredikční síla sady prediktorů
oUkazatel velikosti účinku
oR: Mnohonásobná (mutiple) korelace
oVždy nadhodnocuje >> při replikaci vychází nižší R2
nshrinkage correction – Adjusted (upravené) R2
oWherry (SPSS, Statistica) –kdybychom model dělali z cenzových dat
ncross-validation
oStein (Field) – očekávané R2 při replikaci
osplit-sample analýza
o
•X1
•X2
•X3
•Y

Síla testu a velikost vzorku v MLR
•Přibývá nový faktor síly testu: množství prediktorů


Reportování MLR
oZáklad:
nPopisné statistiky Y a Xi obvykle s korelační maticí všech
nUjištění o naplnění předpokladů
nPopis shody modelu s daty – R2 , p (někdy i s F-testem)
nPřehled regresních koeficientů, b, b s jejich SE, popř. s intervaly spolehlivosti, nebo p
nLimity, např. možný dopad nedokonalého naplnění předpokladů, vlivných případů apod.
o

Zapojení kategorických prediktorů
oDummy coding ->dummy variables
nPomocí k−1 kategorických proměnných
nIndikátorové kódování (indicator coding)
oReferenční kategorie = 0
nEfektové kódování (effect coding)
oReferenční kategorie = -1
n
n
Člen rodiny
Původní proměnná
Indikátorové kódování
Efektové kódování
Matka
Otec
Matka
Otec
Matka
1
1
0
1
0
Otec
2
0
1
0
1
Dítě
3
0
0
-1
-1

Interpretace vah dummy proměnných
oY = b0 +bA1XA1 + bA2XA2 + … + bmXm  +  e
oPo dosazení do regresní rovnice predikujeme člověku průměr jeho skupiny (pokud nejsou žádné další
prediktory).
oIndikátorové kódování
nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou; sig
bAi znamená sig rozdílu
nbAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční
skupině
nb0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině
oEfektové kódování
nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a celkovým průměrem
nb0 udává (při absenci jiných prediktorů) celkový průměr
o

ozáv:  deprese
opred: selfe, effi3, duv_r, duv_v, pohlavi  a mat99
oSplit podle kohorty
o
o
o
o

1
2
3
4
5
6

Moderace a Mediace
oMODERACE a MEDIACE jsou prototypickým zapojením třetí proměnné do vztahu mezi dvěma proměnnými
oTerminologii a statistiku v tomto směru ustavili před 25 lety Baron a Kenny,
http://davidakenny.net/kenny.htm oMODERÁTOR je obvykle kategorická proměnná, která mění (historicky
snižuje-moderuje) těsnost vztahu mezi X a Y oMEDIÁTOR je proměnná, skrze níž se odehrává vztah mezi
X a Y. Vztah mezi X a Y je pouze zdánlivý, protože X ve skutečnosti ovlivňuje Moderátor a Moderátor
následně ovlivňuje Y.

MODERACE A MEDIACE
o
o
Var1
Var2
Mediator
Var1
Var2
Moderator

Mediace
1.X signifikantně predikuje Y   (! r může být při plné mediaci malá)
2.X signifikantně predikuje Mediátor
3.M signifikantně predikuje Y, je-li X kontrolována
4.Původně signifikantní vztah mezi X a Y po zařazení mediátoru klesne (ideálně na 0)
5.Nepřímý efekt X na Y (přes M) se statisticky významně liší od 0 – Sobelův test (a=BM.X, b=BY.M)
6.
X
Y
Mediator
Sobel test statistic:

http://quantpsy.org/sobel/sobel.htm
http://www.danielsoper.com/statcalc3/calc.aspx?id=31

Moderace
oLiší se vliv X na Y např. pro muže a ženy?
o

http://www.jeremydawson.co.uk/slopes.htm

Moderace se realizuje násobením
oJe-li proměnná moderátorem vztahu prediktoru a závislé, říkáme, že moderátor interaguje s
prediktorem
oInteragovat mohou kategorické i intervalové proměnné
oVytvoříme novou proměnnou, která je násobkem interagujících proměnných
nPř. depBYpoh=Deprese*pohlaví
oVložíme do regrese tuto proměnnou vedle hlavních efektů
nPř. ŽS=b0 + b1*D + b2*P + b3*depBYpoh + e
oRegr. koeficient vyjadřuje rozdíl vlivů jedné interagující proměnné pro různé hodnoty druhé
interagující proměnné

Úkol
oField Smart Alex‘s task Ch. 9 Task 7 s. 435
o
oData: http://study.sagepub.com/sites/default/files/spss_files_0.zip
oKontext:
ohttps://onlinelibrary.wiley.com/doi/full/10.1111/j.1469-7610.2006.01655.x
o
oZ analýz sepište zprávu v souladu s konvencemi.
oOdevzdejte do pondělí – do 14 hodin.