PSY252 Statistická analýza dat v psychologii II Přednáška 3 Pokročilá využití regresního modelu Mnohonásobná lineární regrese o oY = b0 +b1X1 + b2X2 + … + bkXk + e n n n n Osnova oCentrování prediktorů oVkládání prediktorů po blocích - porovnávání modelů oKategorické prediktory, kontrasty oInterakce-moderace oMediace oOdhad potřebné velikosti vzorku oLineární regrese pomocí GENLIN Interpretace Y‘ a regresních koeficientů Y‘ = b0 +b1X1 + b2X2 + … + bkXk n oY‘ predikovaná hodnota je podmíněný průměr Y, M(Y|Xi), tj. průměr lidí s danými hodnotami Xi nKdybychom sehnali náhodný vzorek lidí, kteří mají stejnou hodnotu u všech prediktorů, pak by Y‘ měla být rovna průměru jejich Y a jejich rozptyl je roven reziduálnímu rozptylu … pokud jsou předpoklady modelu splněny. nV tomto smyslu je predikovaná hodnota očekávanou hodnotou E(Y|Xi) oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, pokud by ostatní prediktory zůstaly nezměněné (≈semiparciální r); jedinečný přínos obi; BETA vyjadřuje nárůst Y’ při nárůstu Xi o 1SD v násobcích SD Y pokud by ostatní prediktory zůstaly nezměněné(≈semiparciální r) oB0 ; b0 – obtížně interpretovatelný průsečík … leda by prediktory byly centrované oV různých modelech nemusí být vliv prediktoru stejný o o Centrování – usnadnění interpretace oPrůsečík = predikovaná hodnota Y‘, když má prediktor hodnotu 0. Hodnota 0 mnohdy není smysluplnou hodnotou prediktoru…. o oC: Transformace prediktoru, aby 0 byla průměrem nPREDIKTOR_C = PREDIKTOR – MPREDIKTOR oNásledným podělením SD bychom dospěli k z-skórům. Tím bychom ale přišli o měřítko. o oPrůsečík pak udává predikci pro člověka, který má průměrnou hodnotu všech prediktorů n Příklad centrování odeprese ~ selfe, effi o oCOMPUTE selfeC=selfe-3.058621. oCOMPUTE effiC=effi-2.743662. oEXECUTE. o oREGRESSION /DEPENDENT deprese /METHOD=ENTER selfe effi. oREGRESSION /DEPENDENT deprese /METHOD=ENTER selfeC effiC. o o o Možnosti práce s modely 1.Odhadneme model, který jsme plánovali. 2.Odhadneme řadu modelů, s postupně se rozšiřující sadou prediktorů nhierarchická regrese 3.Necháme nějaký algoritmus vybrat nejlepší sadu prediktorů z dostupných nstepwise algoritmy o Hierarchická lineární regrese oBloková, se sadami (sets) prediktorů oPrediktory vkládáme po skupinách (popř. jednotlivě) v teoreticky zdůvodněném pořadí oTeoreticky zdůvodněné pořadí umožňuje rozdělit rozptyl Y na smysluplné části (variance partitioning) nZměna pořadí prediktorů změní velikost těch částí nSmysluplnost se odvozuje právě od toho, kterými prediktory je rozptyl Y vysvětlen. oZajímá nás schopnost sady prediktorů vylepšit model nSrovnání různých oblastí vlivu na zkoumaný jev nZkoumání inkrementální validity n n Obvyklá řazení bloků oDle času, kauzální priority nPř. od dispozičním k situačním… oOd známých k neznámým vlivům nStat. kontrola intervenujících proměnných oPodle výzkumné relevance nOd ústředních po „co kdyby“; maximalizace síly o Srovnávání modelů po blocích oPo vložení bloku sledujeme, zda došlo k nárůstu R2 oproti předchozímu modelu oTest signifikance nárůstu R2 nJe-li A 1. blok prediktorů a B 2., H0: R2Y.AB – R2Y.A = 0 nTestová statistika n odfčitatel=kB (počet proměnných v bloku B) odfjmenovatel=n-kA-kB-1 oSPSS to počítá zaškrtnutím „R squared change“ Upozornění oI když je přidávání bloků v SPSS provedeno automaticky jedním příkazem, nezapomínejme, že jde o sérii samostatných (obyčejných) regresních modelů. nHierarchická regrese tedy není zvláštním typem regrese, regresního modelu. n oUvnitř jednotlivých modelů nezáleží na pořadí prediktorů. nMůžeme také říci, že uvnitř bloků nezáleží na pořadí. o Interpretace v hierarchické regresi oPřírůstek R2 oPokles není možný, minimem je nulový nárůst. oČasto nás zajímá, jestli je vskutku nějaký nárůst (H0 není jen formální) oZměna Bi oPokud byl prediktor v dřívějším bloku, zajímá nás jeho změna oMožný je pokles i nárůst, vč. změny znaménka, nově přidané prediktory mění význam Bi oVelikost změn souvisí s tím, jak moc spolu prediktory korelují oPokles – nově přidané prediktory asi vysvětlují Y tou částí svého rozptylu, kterou sdílí s prediktorem, jehož B poklesl oNárůst – nově přidané prediktory asi vysvětlují část rozptylu prediktoru, jehož B narostl, a tato část rozptylu vůbec nesouvisí s Y. nEfekt suprese, „Simpsonův paradox“, n Příklad hierarchické regrese se supresí. oFieldovy modelky. o Použití kategorických prediktorů oPrediktorem může být i kategorická proměnná odichotomická ona dichotomie transformovaná o Příklad s pohlavím oZměna kódování na 1=muž, 0=žena (MUŽ) oRECODE POHLAVI (1=1) (2=0) INTO MUZ. oEXECUTE. oFREQ MUZ. oT-TEST GROUPS=pohlavi(1 2) /VARIABLES=deprese. oRegrese s proměnnou MUŽ jako jediným prediktorem oREGRESSION /DEPENDENT deprese /METHOD=ENTER muz. o Je-li kategorický prediktor kódovaný 0/1… nDEP‘=2,064 - 0,126*MUZ nJe-li MUZ=0, pak DEP‘ = 2,064 - 0,126*0 = 2,064 oPři pouze jednom prediktoru udává b0 průměr skupiny kódované 0 nJe-li MUZ=1, pak DEP‘ = 2,064 - 0,126*1 = 1,938 oPrůměr skupiny kódované 1 je roven b0+bMUZ o… jeho regresní koeficient udává, o kolik se liší průměr skupiny kódované 1 od skupiny kódované 0. oPři kódování 2/0 by udával polovinu rozdílu…. o Předpoklady regrese stále platí (kinda) Kategorické prediktory s k hodnotami Dummy coding ->dummy variables ok−1 dichotomických proměnných nesoucích informaci obsaženou v původní kategorické p. oIndikátorové kódování (indicator coding) nPro každou hodnotu vyjma jedné vytvoříme proměnnou, kde bude mít respondent 1, pokud tuto hodnotu má, jinak 0 nZbylá hodnota = referenční kategorie, i.e. ten, kdo má všechny dummies = 0 oZahrnutí všech k-1 dummy proměnných mezi prediktory n n Vzdělání matky Původní kód Indikátorové kódování – 3 nové dummy proměnné vm_zak vm_vyu vm_str základní 1 1 0 0 vyučena 2 0 1 0 střední 3 0 0 1 vysokoškolské 4 0 0 0 o o o o o o o o o o orecode vzdel_ma (1=1) (2=0) (3=0) (4=0) into vm_zak. orecode vzdel_ma (1=0) (2=1) (3=0) (4=0) into vm_vyu. orecode vzdel_ma (1=0) (2=0) (3=1) (4=0) into vm_str. oexecute. o oREGRESSION /DEPENDENT deprese /METHOD=ENTER vm_zak vm_vyu vm_str. Jsou-li dummy kódované 0/1… nDEP‘=1,95 + 0,18vm_zak + 0,09vm_vyu + 0,05vm_str nJe-li VŠ, pak DEP‘ = 1,95 + 0,18*0 + 0,09*0 + 0,05*0 oPři jednom kat. prediktoru udává b0 průměr referenční skupiny (kódované 0 ve všech dummy) nJe-li SŠ, pak DEP‘ = 1,95 + 0,18*0 + 0,09*0 + 0,05*1 =2,00 oPrůměr skupiny dané dummy je roven b0+bH o… jejich regresní koeficienty udávají, o kolik se liší průměr skupiny dané dummy proměnnou od referenční skupiny. Interpretace regresních koeficientů dummy proměnných oY = b0 +bA1XA1 + bA2XA2 + … + bmXm + e oIndikátorové kódování nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou, ceteris paribus nbAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční skupině nb0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině oTesty koeficientů jsou ekvivalentní t-testům rozdílu průměrů mezi indikovanou a referenční skupinou o Jiné než indikátorové kódování oDummy proměnné nám umožňují srovnávat průměry skupin – ale dostaneme jen některá srovnání – volba referenční skupiny! oMáme-li více než 2 skupiny, roste množství srovnání, které bychom mohli chtít učinit. nPř. VŠ vs nižší vzdělání matky? SŠ vs VYU? oTomu odpovídá i široká paleta způsobů jimiž můžeme vytvořit dummy proměnné. oKONTRASTY (contrasts) n Moderace(interakce) o Moderace(interakce) oModerací se rozumí situace, kdy vztah mezi prediktorem a outcomem je jiný v různých skupinách vynezených kategorickou proměnnou – MODERÁTOREM oHistoricky moderace = tlumení vztahu Moderace konceptuálně o Prediktor Outcome Moderátor Moderace jako součást lineárního modelu o Prediktor Outcome Moderátor Prediktor*Moderátor Moderace jako součást lineárního modelu oZávislou tak predikujeme pomocí nprediktoru nmoderátoru (nelze ho vynechat!) ninterakčního členu, který si jako novou proměnnou spočítáme jako násobek prediktoru a moderátoru oY = b0 +bXX + bMM + bXMXM + e o Příklad moderace oZávislá: Selfe – self-esteem oPrediktor: warm_o – vřelost otce oModerátor: pohlaví o oRECODE POHLAVI (1=1) (2=0) INTO MUZ. oCOMPUTE VOxMUZ=warm_o*MUZ. oEXECUTE. o oREGRESSION /DEPENDENT selfe o /METHOD=ENTER warm_o MUZ VOxMUZ. o oSELFE‘=2,4 + 0,2warm_o – 0,5MUZ + 0,2VOxMUZ oInterpretace oJe-li MUZ=0, pak SELFE‘=2,4 + 0,2warm_o oJe-li MUZ=1, pak SELFE‘=2,4 + 0,2warm_o – 0,5 + 0,2(warm_o*MUZ) n SELFE‘=2,4 + 0,2warm_o – 0,5 + 0,2warm_o n SELFE‘=2,4 + 0,4warm_o – 0,5 obX udává efekt X na Y ve skupině, kde M=0 obMX udává, o kolik je efekt X na Y větší, když M=1 oObecně: bMX udává, o kolik se mění bX při jednotkové změně M n n o o Moderace - zobrazení oSimple slopes – regresní přímky pro vybrané hodnoty moderátoru (všechny, -1SD, M, 1SD) o Graf můžeme vyrobit v Excelu… o oalternativně online tvořítka na grafy jako např. https://www.desmos.com/calculator onebo R Závěrečné poznámky k moderaci oModerátor může být i spojitá proměnná. nPak je dobré ji centrovat (popř. i prediktor), aby byla interpretace jednodušší (bX při M=0) a aby se snížila kolinearita oObecnějším termínem pro moderaci je interakce – může být mezi všemi typy proměnných a realizuje se stejně, tj. násobením oInterakce může být i vyššího řádu – 3 i více proměnných. Prudce rostou nároky na interpretaci. oPROCESS – plugin do SPSS usnadňující odhadování modelů s moderací (a dalších modelů) – viz Field o o o o MEDIACE oMODERACE a MEDIACE jsou prototypickým zapojením třetí proměnné do vztahu mezi dvěma proměnnými oMODERÁTOR je obvykle kategorická proměnná, která mění (historicky snižuje-moderuje) těsnost vztahu mezi X a Y oMEDIÁTOR je proměnná, skrze níž se odehrává vztah mezi X a Y. Vztah mezi X a Y je pouze zdánlivý, protože X ve skutečnosti ovlivňuje Mediátor a Mediátor následně ovlivňuje Y. oTerminologii a statistiku v tomto směru ustavili před 25 lety Baron a Kenny, http://davidakenny.net/kenny.htm o MEDIACE o o Prediktor X Závislá Y Mediator M MEDIACE (Baron-Kenny, moderně) 1.X predikuje Y: regr. koef. c (celkový efekt) 2.X predikuje M: regr. koef. a 3.M predikuje Y, je-li X kontrolována regr. koef. b 4.Efekt X na Y po zařazení M (c‘, přímý efekt) klesne (ideálně na 0) 5.Nepřímý efekt X na Y (přes M) (ab) se statisticky významně liší od 0 – Sobelův test 6. X Y Mediator Sobel test statistic: a b c (c‘) http://quantpsy.org/sobel/sobel.htm http://www.danielsoper.com/statcalc3/calc.aspx?id=31 Mediace - příklad 1.Regrese DEP na SE Self esteem Deprese Neshody s rodiči c = -0,50 Mediace - příklad 2.Regrese Neshod na SE Self esteem Deprese Neshody s rodiči c = -0,50 a = 0,33 Mediace - příklad 3.Regrese DEP na Neshody a SE Self esteem Deprese Neshody s rodiči c = -0,50 a = 0,33 b = -0,27 Mediace - příklad 4.Snížení c? Self esteem Deprese Neshody s rodiči c = -0,50 c‘ = -0,41 a = 0,33 b = -0,27 Mediace - příklad 5.Velikost nepřímého efektu oVelikost = a.b = 0,33*0,27= 0,09 oČást. standardizovaná = 0,09/0,47 = 0,04 oz=0,09/odm(0,272.0,0432+0,332.0,0242)=6,3, p<0,001 Self esteem Deprese Neshody s rodiči c = -0,50 c‘ = -0,41 a = 0,33 b = -0,27 Sobel test statistic: Mediace – příklad - PROCESS ohttp://www.processmacro.org/index.html o Velikost mediačního (nepřímého) účinku oZáleží na tom, co chceme komunikovat oAbsolutní: Nestandardizovaná i standardizovaná a*b nefekt jednotkové změny prediktoru v jednotkách závislé (násobíme-li b, je to v SD) oRelativní vůči celkovému účinku a*b/c či vůči přímému účinku a*b/c‘ nintuitivní, ale nestabilní, zrádné kvůli možné změně znamének oR2 vysvětlené mediačním efektem (Field 11.11) nPodíl rozptylu Y vysvětlený tou částí rozptylu, kterou X a M sdílí. o o Mediace – závěrečné poznámky oMediační model je explicitně kauzální – je třeba umět obhájit směr šipek. oIntervaly spolehlivosti (i SE) na nepřímé efekty jsou spolehlivěji stanovovány bootstrapem (PROCESS) oTato podoba mediačního modelu je mezistupněm mezi regresí a SEM modely o o POWER ANALÝZA REGRESNÍHO MODELU oG*Power - http://www.gpower.hhu.de/ H0: R2=0 of2=R2/(1-R2) R2 H0: DR2=0 of2=DR2/(1-R2) DR2 1-R2 N prediktorů v testovaném bloku N prediktorů celkem H0: bi=0 oPokud nás zajímá jen 1 prediktor, je to jako testovat, zda jeho přidání v samostatném závěrečném bloku přidá nějaký R2. oPokud nás zajímá k prediktorů, upravíme a na a/k a počítáme jako pro 1 prediktor (počítáme se stejnou velikostí účinku Síla testu a velikost vzorku v MLR Přibývá nový faktor síly testu: množství prediktorů o Lineární regrese jako submodel generalizovaného lineárního modelu o o o KATEGORICKÉ METRICKÉ VOLBA REFERENČNÍ K. o Které z prediktorů zahrnout do modelu? Chceme vytvořit i interakční člen? o Nechat být. Při podezření na heteroskedascitu, zvolit robustní estimátor o PŘESNĚJŠÍ, POMALEJŠÍ KONTRASTY o ZDE MOŽNOST ZVOLIT KONTRASTY PRO KATEGORICKÉ S VÍCE KATEGORIEMI o Úkol o1. Rozpracujte model predikující SDQ z minulého zadání oZ původních prediktorů nechejte mum_neg a child_age oDo modelu zařaďte moderaci efektu mum_neg pohlavím (child_gender). o o2. Proměnnou mum_neg transformujte na pořadovou proměnnou podle tercilů – hodnoty v 1. tercilu budou mít hodnotu 1, 2. tercilu 2, 3. tercilu 3. S transformovanou proměnou zopakujte analýzu 1. Co se změnilo? oZ analýz sepište zprávu v souladu s konvencemi. oOdevzdejte do pondělí – do 14 hodin. o Diagnostika 1: Outliery a vlivné případy oNemají některé případy příliš velký vliv na výsledky regrese? oOutliery – mohou zvyšovat i snižovat b nRezidua – případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3 nVlivné případy – případy, které nejvíc ovlivňují parametry oCo se stane s parametry regrese, když případ odstraníme? oDFBeta – rozdíl mezi parametrem s a bez, standardizované > 1 oDFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou) oCookova vzdálenost > 1 oLeverage > 2(k+1)/n , kde k = počet prediktorů, n= velikost vzorku oPřípady s vysokými rezidui či vlivné případy NEODSTRAŇUJEME o…leda by šlo o zjevnou chybu v datech či vzorku o…leda by nám šlo výhradně o zpřesnění predikce (nikoli o testy hypotéz) Studentizace je jako standardizace, ale namísto dělení směrodatnou chybou odhadu se dělí chybou reflektující to, že rezidua (pozorovaná, na rozdíl o random errors, které odhadujeme) mají směrem k extrémům menší variabilitu (protože extrémní hodnoty více ovlivňují směrnici). Daignostika 2: Kolinearita oKdyž 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný oKomplikuje porovnávání síly preditorů oSnižuje stabilitu odhadu parametrů oV extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje o oKorelace nad 0,9 oTolerance (= 1/VIF) cca pod 0,1 o(VIF (= 1/tolerance) cca nad 10) o oI při korelacích kolem 0,5 komplikuje interpretaci!! Diagnostika 3: Předpoklady regrese oZávislá alespoň intervalová, prediktory intervalové i kategorické oAbsence vysoké kolinearity (žádné r > 0,9, tolerance < 0,1) oNeexistence intervenující proměnné, která by korelovala se závislou i prediktory oHomoskedascita (scatterplot ZRESID x ZPRED, parciální scatterplot) oNezávislost reziduí (Durbin-Watson = 2) oNormálně rozložená rezidua (histogram, P-P) oLinearita vztahů o o o o