PSY252 Statistická analýza dat v psychologii II Přednáška 3 Pokročilá využití regresního modelu Mnohonásobná lineární regrese o oY = b0 +b1X1 + b2X2 + … + bkXk + e n n n n Osnova oCentrování prediktorů oKategorické prediktory, kontrasty oInterakce-moderace oMediace oOdhad potřebné velikosti vzorku oLineární regrese pomocí GENLIN MLR: Interpretace regresních koeficientů oY = b0 +b1X1 + b2X2 + … + bkXk + e n oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos nK porovnání síly prediktoru v různých skupinách, modelech, vzorcích obi; bi*; BETA vyjadřuje nárůst Y’ při nárůstu Xi o 1; jsou-li Xi i Y standardizovány, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos nk porovnání prediktorů mezi sebou v rámci jednoho modelu nk porovnání různě operacionalizovaného prediktoru v různých modelech nukazatel velikosti účinku ob0 – obtížně interpretovatelný průsečík … leda by prediktory byly centrované oV různých modelech nemusí být vliv prediktoru stejný o o Centrování – usnadnění interpretace oPrůsečík = predikovaná hodnota, když má prediktor hodnotu 0. Hodnota 0 mnohdy není smysluplnou hodnotou prediktoru…. o oC: Transformace prediktoru, aby 0 byla průměrem nPREDIKTOR_C = PREDIKTOR – MPREDIKTOR oNásledným podělením SD bychom dospěli k z-skórům. Tím bychom ale přišli o měřítko. o oPrůsečík pak udává predikci pro člověka, který má průměrnou hodnotu všech prediktorů n Příklad centrování odeprese ~ selfe, effi o oCOMPUTE selfeC=selfe-3.058621. oCOMPUTE effiC=effi-2.743662. oEXECUTE. o oREGRESSION /DEPENDENT deprese /METHOD=ENTER selfe effi. oREGRESSION /DEPENDENT deprese /METHOD=ENTER selfeC effiC. o o Použití kategorických prediktorů oPrediktorem může být i kategorická proměnná odichotomická ona dichotomie transformovaná o Příklad s pohlavím oZměna kódování na 1=muž, 0=žena (MUŽ) oRECODE POHLAVI (1=1) (2=0) INTO MUZ. oEXECUTE. oFREQ MUZ. oT-TEST GROUPS=pohlavi(1 2) /VARIABLES=deprese. oRegrese s proměnnou MUŽ jako jediným prediktorem oREGRESSION /DEPENDENT deprese /METHOD=ENTER muz. Je-li kategorický prediktor kódovaný 0/1… nDEP‘=2,064 - 0,126*MUZ nJe-li MUZ=0, pak DEP‘ = 2,064 - 0,126*0 = 2,064 oPři pouze jednom prediktoru udává b0 průměr skupiny kódované 0 nJe-li MUZ=1, pak DEP‘ = 2,064 - 0,126*1 = 1,938 oPrůměr skupiny kódované 1 je roven b0+bMUZ o… jeho regresní koeficient udává, o kolik se liší průměr skupiny kódované 1 od skupiny kódované 0. oPři kódování 2/0 by udával polovinu rozdílu…. o Předpoklady regrese stále platí (kinda) Kategorické prediktory s k hodnotami Dummy coding ->dummy variables ok−1 dichotomických proměnných nesoucích informaci obsaženou v původní kategorické p. oIndikátorové kódování (indicator coding) nPro každou hodnotu vyjma jedné vytvoříme proměnnou, kde bude mít respondent 1, pokud tuto hodnotu má, jinak 0 nZbylá hodnota = referenční kategorie, i.e. ten, kdo má všechny dummies = 0 oZahrnutí všech k-1 dummy proměnných mezi prediktory n n Vzdělání matky Původní kód Indikátorové kódování – 3 nové dummy proměnné vm_zak vm_vyu vm_str základní 1 1 0 0 vyučena 2 0 1 0 střední 3 0 0 1 vysokoškolské 4 0 0 0 o o o o o o o o o o orecode vzdel_ma (1=1) (2=0) (3=0) (4=0) into vm_zak. orecode vzdel_ma (1=0) (2=1) (3=0) (4=0) into vm_vyu. orecode vzdel_ma (1=0) (2=0) (3=1) (4=0) into vm_str. oexecute. o oREGRESSION /DEPENDENT deprese /METHOD=ENTER vm_zak vm_vyu vm_str. Jsou-li dummy kódované 0/1… nDEP‘=1,95 + 0,18vm_zak + 0,09vm_vyu + 0,05vm_str nJe-li VŠ, pak DEP‘ = 1,95 + 0,18*0 + 0,09*0 + 0,05*0 oPři jednom kat. prediktoru udává b0 průměr referenční skupiny (kódované 0 ve všech dummy) nJe-li SŠ, pak DEP‘ = 1,95 + 0,18*0 + 0,09*0 + 0,05*1 =2,00 oPrůměr skupiny dané dummy je roven b0+bH o… jejich regresní koeficienty udávají, o kolik se liší průměr skupiny dané dummy proměnnou od referenční skupiny. Interpretace regresních koeficientů dummy proměnných oY = b0 +bA1XA1 + bA2XA2 + … + bmXm + e oIndikátorové kódování nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou; sig bAi znamená sig rozdílu nbAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční skupině nb0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině oTesty koeficientů jsou vlastně t-testy rozdílu průměrů mezi indikovanou a referenční skupinou Jiné než indikátorové kódování oDummy proměnné nám umožňují srovnávat průměry skupin oMáme-li více než 2 skupiny, roste množství srovnání, které bychom mohli chtít učinit. nPř. VŠ vs nižší vzdělání matky? SŠ vs VYU? oTomu odpovídá i široká paleta způsobů jimiž můžeme vytvořit dummy proměnné. oKONTRASTY (contrasts) n Moderace(interakce) o Moderace(interakce) oModerací se rozumí situace, kdy vztah mezi prediktorem a outcomem je jiný v různých skupinách vynezených kategorickou proměnnou – MODERÁTOREM oHistoricky moderace = tlumení vztahu Moderace jako součást lineárního modelu o Prediktor Outcome Moderátor Moderace jako součást lineárního modelu o Prediktor Outcome Moderátor Prediktor*Moderátor Moderace jako součást lineárního modelu oZávislou tak predikujeme pomocí nprediktoru nmoderátoru ninterakčního členu, který si jako novou proměnnou spočítáme jako násobek prediktoru a moderátoru oY = b0 +bXX + bMM + bXMXM + e o Příklad moderace oZávislá: Selfe – self-esteem oPrediktor: warm_o – vřelost otce oModerátor: pohlaví o oRECODE POHLAVI (1=1) (2=0) INTO MUZ. oCOMPUTE VOxMUZ=warm_o*MUZ. oEXECUTE. o oREGRESSION /DEPENDENT selfe o /METHOD=ENTER warm_o MUZ VOxMUZ. o oSELFE‘=2,4 + 0,2warm_o – 0,5MUZ + 0,2VOxMUZ oInterpretace oJe-li MUZ=0, pak SELFE‘=2,4 + 0,2warm_o oJe-li MUZ=1, pak SELFE‘=2,4 + 0,2warm_o – 0,5 + 0,2(warm_o*MUZ) n SELFE‘=2,4 + 0,2warm_o – 0,5 + 0,2warm_o n SELFE‘=2,4 + 0,4warm_o – 0,5 obX udává efekt X na Y ve skupině, kde M=0 obMX udává, o kolik je efekt X na Y větší, když M=1 oObecně: bMX udává, o kolik se mění bX při jednotkové změně M n n o o Moderace - zobrazení oSimple slopes – regresní přímky pro vybrané hodnoty moderátoru (všechny, -1SD, M, 1SD) o Graf můžeme vyrobit v Excelu… o oalternativně online tvořítka na grafy jako např. https://www.desmos.com/calculator onebo R Závěrečné poznámky k moderaci oModerátor může být i spojitá proměnná. nPak je dobré ji centrovat (popř. i prediktor), aby byla interpretace jednodušší (bX při M=0) oObecnějším termínem pro moderaci je interakce – může být mezi všemi typy proměnných a realizuje se stejně, tj. násobením oInterakce může být i vyššího řádu – 3 i více proměnných. Prudce rostou nároky na interpretaci. oPROCESS – plugin do SPSS usnadňující odhadování modelů s moderací (a dalších modelů) – viz Field o o o o MEDIACE oMODERACE a MEDIACE jsou prototypickým zapojením třetí proměnné do vztahu mezi dvěma proměnnými oMODERÁTOR je obvykle kategorická proměnná, která mění (historicky snižuje-moderuje) těsnost vztahu mezi X a Y oMEDIÁTOR je proměnná, skrze níž se odehrává vztah mezi X a Y. Vztah mezi X a Y je pouze zdánlivý, protože X ve skutečnosti ovlivňuje Mediátor a Mediátor následně ovlivňuje Y. oTerminologii a statistiku v tomto směru ustavili před 25 lety Baron a Kenny, http://davidakenny.net/kenny.htm o MEDIACE o o Prediktor X Závislá Y Mediator M MEDIACE (Baron-Kenny, moderně) 1.X predikuje Y: regr. koef. c 2.X predikuje M: regr. koef. a 3.M predikuje Y, je-li X kontrolována regr. koef. b 4.Efekt X na Y po zařazení M (c‘) klesne (ideálně na 0) 5.Nepřímý efekt X na Y (přes M) (a.b) se statisticky významně liší od 0 – Sobelův test 6. X Y Mediator Sobel test statistic: a b c (c‘) http://quantpsy.org/sobel/sobel.htm http://www.danielsoper.com/statcalc3/calc.aspx?id=31 Mediace - příklad 1.Regrese DEP na SE Self esteem Deprese Neshody s rodiči c = -0,50 Mediace - příklad 2.Regrese Neshod na SE Self esteem Deprese Neshody s rodiči c = -0,50 a = 0,33 Mediace - příklad 3.Regrese DEP na Neshody a SE Self esteem Deprese Neshody s rodiči c = -0,50 a = 0,33 b = -0,27 Mediace - příklad 4.Snížení c? Self esteem Deprese Neshody s rodiči c = -0,50 c‘ = -0,41 a = 0,33 b = -0,27 Mediace - příklad 5.Velikost nepřímého efektu oVelikost = a.b = 0,33*0,27= 0,09 oČást. standardizovaná = 0,09/0,47 = 0,04 oz=0,09/odm(0,272.0,0432+0,332.0,0242)=6,3, p<0,001 Self esteem Deprese Neshody s rodiči c = -0,50 c‘ = -0,41 a = 0,33 b = -0,27 Sobel test statistic: Mediace – příklad - PROCESS ohttp://www.processmacro.org/index.html o Mediace – závěrečné poznámky oMediační model je explicitně kauzální – je třeba umět obhájit směr šipek. oIntervaly spolehlivosti na nepřímé efekty jsou spolehlivěji stanovovány bootstrapem (PROCESS) oTato podoba mediačního modelu je mezistupněm mezi regresí a SEM modely o o POWER ANALÝZA REGRESNÍHO MODELU oG*Power - http://www.gpower.hhu.de/ H0: R2=0 of2=R2/(1-R2) R2 H0: DR2=0 of2=DR2/(1-R2) DR2 1-R2 N prediktorů v testovaném bloku N prediktorů celkem H0: bi=0 oPokud nás zajímá jen 1 prediktor, je to jako testovat, zda jeho přidání v samostatném závěrečném bloku přidá nějaký R2. oPokud nás zajímá k prediktorů, upravíme a na a/k a počítáme jako pro 1 prediktor (počítáme se stejnou velikostí účinku Síla testu a velikost vzorku v MLR •Přibývá nový faktor síly testu: množství prediktorů o Lineární regrese jako submodel generalizovaného lineárního modelu o o o KATEGORICKÉ METRICKÉ VOLBA REFERENČNÍ K. o Které z prediktorů zahrnout do modelu? Chceme vytvořit i interakční člen? o Nechat být. Při podezření na heteroskedascitu, zvolit robustní estimátor o PŘESNĚJŠÍ, POMALEJŠÍ KONTRASTY o ZDE MOŽNOST ZVOLIT KONTRASTY PRO KATEGORICKÉ S VÍCE KATEGORIEMI o Hrátky s prediktory oPrediktory lze do modelu vložit všechny najednou, jednotlivě, nebo po skupinkách oPorovnáváme tak vlastně mnoho modelů lišících se zahrnutými prediktory. oVše najednou = ENTER oPostupně po jednom = FORWARD oVše a postupně ubírat = BACKWARD oPo blocích, blockwise = ENTER + další blok Hierarchická lineární regrese oBloková, se sadami (sets) prediktorů oPrediktory vkládáme po skupinách (popř. jednotlivě) v teoreticky zdůvodněném pořadí oTeoreticky zdůvodněné pořadí umožňuje rozdělit rozptyl Y na smysluplné části (variance partitioning) nZměna pořadí prediktorů změní velikost těch částí oZajímá nás schopnost sady prediktorů vylepšit model nSrovnání různých oblastí vlivu na zkoumaný jev nZkoumání inkrementální validity n n Obvyklá řazení bloků oDle času, kauzální priority nPř. od dispozičním k situačním… oOd známých k neznámým vlivům nkontrola intervenujících proměnných nMinimalizace chyby 1. typu oPodle výzkumné relevance nOd ústředních po „co kdyby“; maximalizace síly o Obvyklý postup regresní analýzy oNa základě teoretických rozvah stanovíme různé modely, jejichž srovnání je potenciálně zajímavé oNejjednodušší srovnání je u hierarchických modelů, kdy je jeden model plně vnořen do následujícího – to umožňuje testovat inkrement R2 oAž v druhé řadě se zabýváme jednotlivými regresními koeficienty v modelu, který je nejúplnější/nejlepší o Diagnostika 1: Outliery a vlivné případy oNemají některé případy příliš velký vliv na výsledky regrese? oOutliery – mohou zvyšovat i snižovat b nRezidua – případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3 nVlivné případy – případy, které nejvíc ovlivňují parametry oCo se stane s parametry regrese, když případ odstraníme? oDFBeta – rozdíl mezi parametrem s a bez, standardizované > 1 oDFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou) oCookova vzdálenost > 1 oLeverage > 2(k+1)/n , kde k = počet prediktorů, n= velikost vzorku oPřípady s vysokými rezidui či vlivné případy NEODSTRAŇUJEME o…leda by šlo o zjevnou chybu v datech či vzorku o…leda by nám šlo výhradně o zpřesnění predikce (nikoli o testy hypotéz) Studentizace je jako standardizace, ale namísto dělení směrodatnou chybou odhadu se dělí chybou reflektující to, že rezidua (pozorovaná, na rozdíl o random errors, které odhadujeme) mají směrem k extrémům menší variabilitu (protože extrémní hodnoty více ovlivňují směrnici). Daignostika 2: Kolinearita oKdyž 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný oKomplikuje porovnávání síly preditorů oSnižuje stabilitu odhadu parametrů oV extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje o oKorelace nad 0,9 oTolerance (= 1/VIF) cca pod 0,1 o(VIF (= 1/tolerance) cca nad 10) o oI při korelacích kolem 0,5 komplikuje interpretaci!! Diagnostika 3: Předpoklady regrese oZávislá alespoň intervalová, prediktory intervalové i kategorické oAbsence vysoké kolinearity (žádné r > 0,9, tolerance < 0,1) oNeexistence intervenující proměnné, která by korelovala se závislou i prediktory oHomoskedascita (scatterplot ZRESID x ZPRED, parciální scatterplot) oNezávislost reziduí (Durbin-Watson = 2) oNormálně rozložená rezidua (histogram, P-P) oLinearita vztahů o o o o MLR: Shoda modelu s daty: R2 oČást rozptylu Y vysvětleného dohromady všemi prediktory oPredikční síla sady prediktorů oUkazatel velikosti účinku oR: Mnohonásobná (mutiple) korelace oVždy nadhodnocuje >> při replikaci vychází nižší R2 nshrinkage correction – Adjusted (upravené) R2 oWherry (SPSS, Statistica) –kdybychom model dělali z cenzových dat ncross-validation oStein (Field) – očekávané R2 při replikaci osplit-sample analýza o •X1 •X2 •X3 •Y Úkol o1. Rozpracujte model predikující SDQ z minulého zadání oZ původních prediktorů nechejte mum_neg a child_age oDo modelu zařaďte moderaci efektu mum_neg pohlavím (child_gender). o o2. Proměnnou mum_neg transformujte na pořadovou proměnnou podle tercilů – hodnoty v 1. tercilu budou mít hodnotu 1, 2. tercilu 2, 3. tercilu 3. S transformovanou proměnou zopakujte analýzu 1. Co se změnilo? oZ analýz sepište zprávu v souladu s konvencemi. oOdevzdejte do pondělí – do 14 hodin.