PSY252 Statistická analýza dat v psychologii II Přednáška 2 {Mnohonásobná, vícenásobná} lineární regrese Multiple linear regression REGRESE, JAK JSME SI JI PŘEDSTAVILI V PSY117 o Dlouhodobá adaptace sluchu hlasitost [%] výdrž [s] 25 5 31 9 55 20 42 13 47 18 53 17 40 15 35 10 28 10 •Jak dlouho vydrží lidé nepříjemný hlasitý zvuk? • •Lze využít informaci o tom, zda člověk poslouchá osobní přehrávač na vysokou hlasitost [% z maxima přehrávače] k odhadu výdrže nepříjemného zvuku? Jakou čarou tvar proložit o Lineární regrese I. - MODEL oJe-li Pearsonova korelace dobrým popisem vztahu mezi hlasitostí a výdrží, lze vztah popsat, modelovat lineární funkcí: oV’ = b0 +b1H nb1 směrnice nb0 průsečík oV = V’ + e oV = b0 +b1H + e oPozorování=Model+Chyba o o oOdhad parametrů a, b? oMetodou nejmenších čtverců (OLS) o o o o Lineární regrese II. – příklad •mh=39,6 •sh = 10,7 •mv=13,0 •sv = 4,9 •r = 0,95 výdrž’ = 0,43.hlasitost − 4,15 Namalovat pár bodů o o Novinky oproti PSY117 oRegr. koeficienty jsou b0 (průsečík, a, (constant)) a b1(směrnice, b) oBeta – standardizovaný regresní koeficient. nO kolik víc násobku SD proměnné Y predikujeme člověku, který má o 1SD proměnné X víc. S jedním prediktorem = r. oTesty jednotlivých regresních koeficientů. nTestují H0: bk=0. (t=b/SEb, t-rozložení s df=N-k-1, ) o o Jak dobrý je model? Predikované hodnoty a rezidua hlasitost [%] výdrž [s] výdrž’ [s] reziduum [s] 25 5 6,69 -1,69 31 9 9,29 -0,29 55 20 19,70 0,30 42 13 14,06 -1,06 47 18 16,23 1,77 53 17 18,83 -1,83 40 15 13,19 1,81 35 10 11,02 -1,02 28 10 7,99 2,01 o Lineární regrese III. – úspěšnost predikce oKritériem kvality modelu jsou nyní nejmenší očtverce – jak malé jsou nejmenší čtverce? o oPozorování = Model + Chyba oChyba = Pozorování – Model oSuma chyb (deviance, ssres) = S(Vi−Vi‘)2 oRozptyl chyb (s2res) = S(Vi−Vi‘)2/(N-1) = o = deviance / df o o regrese2 Lineární regrese III. – úspěšnost predikce oR2 = sV‘2 / sV2 o oKoeficient determinace (R2) oPodíl rozptylu vysvětleného modelem oJe ukazatelem kvality, úspěšnosti regrese oVyjadřuje shodu modelu s daty o regrese2 Konstanta jako model oM: všem predikujeme stejnou hodnotu c oY‘ = c , Y = c + e oDeviance = S(Yi−c)2 oDeviance je nejnižší, když c = mY oDeviance = S(Yi−mY)2 os2res = S(Yi−mY)2 / (N-1) … tedy s2Y os2reg = 0 a tedy i R2=0 oNulový model Novinky oproti PSY117 oAdjusted R2 – jak velké R2 bychom čekali, kdybychom analýzu dělali na celé populaci (ne vzorku). Overfitting. oANOVA – test H0: R2=0. oStandard error of the estimate - sres o https://en.wikipedia.org/wiki/Overfitting Lineární regrese IV. – předpoklady, platnost oPředpoklady oprávněnosti použití lineárního modelu ojako u Pearsonovy korelace okonceptuální předpoklad: vztah je ve skutečnosti lineární orezidua mají normální rozložení o s průměrem 0 ohomoskedascita n=rozptyl reziduí (chyb odhadu) n se s rostoucím X nemění o o o o oPlatnost modelu je omezena daty, z nichž byl získán, a teorií. nExtrapolace, neoprávněná extrapolace (»jako generalizace nad rámec empirických dat) nPozor na odlehlé hodnoty – jako u všech ostatních momentových statistik n regrese4 Mnohonásobná lineární regrese oVíce prediktorů, lepší model? o oK čemu je? oJak moc přispívá proměnná X k predikci jevu Y? nInkrementální validita oLiší se muži a ženy v proměnné Y, i když zohledníme intervenující proměnnou Z? nStatistická kontrola oJe měřítko A lepším prediktorem než B? (lépe pomocí r) o o Mnohonásobná lineární regrese oPočet prediktorů není teoreticky omezen nY = b0 +b1X1 + b2X2 + … + bkXk + e o oProblémy plynoucí z většího množství prediktorů nVýpočetní komplikace nKorelace mezi prediktory komplikují interpretaci – (multi)kolinearita nOtázka „pořadí“ prediktorů nMožnost neintuitivních výsledků – př. suprese n nVíce příležitostí k rybaření nMéně příležitostí si uvědomit omezenost modelu nMnožství dat více motivuje k přeskočení detailního se seznamování s daty a prozkoumávání naplnění předpokladů nZapomínání na to, že prioritou je model jako celek n n n n Příklad Long1 ozáv: deprese opred: selfe, effi, duv_r, duv_v o oCelý soubor MLR: Interpretace regresních koeficientů oY = b0 +b1X1 + b2X2 + … + bkXk + e n oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos nK porovnání síly prediktoru v různých skupinách, modelech, vzorcích obi; bi*; BETA vyjadřuje nárůst Y’ při nárůstu Xi o 1; jsou-li Xi i Y standardizovány, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos nk porovnání prediktorů mezi sebou v rámci jednoho modelu nk porovnání různě operacionalizovaného prediktoru v různých modelech nukazatel velikosti účinku ob0 – obtížně interpretovatelný průsečík … leda by prediktory byly centrované oV různých modelech nemusí být vliv prediktoru stejný o o MLR: Interpretace regresních koeficientů oY = b0 +b1X1 + b2X2 + … + bkXk + e n oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos oVýznam b lze vysoudit i dosazením do regresní rovnice o oCentrování prediktorů usnadňuje přímou interpretaci regresních koeficientů nPrůsečík pak udává predikci pro člověka, který má průměrnou hodnotu všech prediktorů o o Hrátky s prediktory oPrediktory lze do modelu vložit všechny najednou, jednotlivě, nebo po skupinkách oPorovnáváme tak vlastně mnoho modelů lišících se zahrnutými prediktory. oVše najednou = ENTER oPostupně po jednom = FORWARD oVše a postupně ubírat = BACKWARD oPo blocích, blockwise = ENTER + další blok Hierarchická lineární regrese oBloková, se sadami (sets) prediktorů oPrediktory vkládáme po skupinách (popř. jednotlivě) v teoreticky zdůvodněném pořadí oTeoreticky zdůvodněné pořadí umožňuje rozdělit rozptyl Y na smysluplné části (variance partitioning) nZměna pořadí prediktorů změní velikost těch částí oZajímá nás schopnost sady prediktorů vylepšit model nSrovnání různých oblastí vlivu na zkoumaný jev nZkoumání inkrementální validity n n Obvyklá řazení bloků oDle času, kauzální priority nPř. od dispozičním k situačním… oOd známých k neznámým vlivům nkontrola intervenujících proměnných nMinimalizace chyby 1. typu oPodle výzkumné relevance nOd ústředních po „co kdyby“; maximalizace síly o Obvyklý postup regresní analýzy oNa základě teoretických rozvah stanovíme různé modely, jejichž srovnání je potenciálně zajímavé oNejjednodušší srovnání je u hierarchických modelů, kdy je jeden model plně vnořen do následujícího – to umožňuje testovat inkrement R2 oAž v druhé řadě se zabýváme jednotlivými regresními koeficienty v modelu, který je nejúplnější/nejlepší Suprese o o o o Diagnostika 1: Outliery a vlivné případy oNemají některé případy příliš velký vliv na výsledky regrese? oOutliery – mohou zvyšovat i snižovat b nRezidua – případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3 nVlivné případy – případy, které nejvíc ovlivňují parametry oCo se stane s parametry regrese, když případ odstraníme? oDFBeta – rozdíl mezi parametrem s a bez, standardizované > 1 oDFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou) oCookova vzdálenost > 1 oLeverage > 2(k+1)/n , kde k = počet prediktorů, n= velikost vzorku oPřípady s vysokými rezidui či vlivné případy NEODSTRAŇUJEME o…leda by šlo o zjevnou chybu v datech či vzorku o…leda by nám šlo výhradně o zpřesnění predikce (nikoli o testy hypotéz) Studentizace je jako standardizace, ale namísto dělení směrodatnou chybou odhadu se dělí chybou reflektující to, že rezidua (pozorovaná, na rozdíl o random errors, které odhadujeme) mají směrem k extrémům menší variabilitu (protože extrémní hodnoty více ovlivňují směrnici). Daignostika 2: Kolinearita oKdyž 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný oKomplikuje porovnávání síly preditorů oSnižuje stabilitu odhadu parametrů oV extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje o oKorelace nad 0,9 oTolerance (= 1/VIF) cca pod 0,1 o(VIF (= 1/tolerance) cca nad 10) o oI při korelacích kolem 0,5 komplikuje interpretaci!! Diagnostika 3: Předpoklady regrese oZávislá alespoň intervalová, prediktory intervalové i kategorické oNenulový rozptyl prediktorů oAbsence vysoké kolinearity (žádné r > 0,9, tolerance < 0,1) oNeexistence intervenující proměnné, která by korelovala se závislou i prediktory oHomoskedascita (scatterplot ZRESID x ZPRED, parciální scatterplot) oNezávislost reziduí (Durbin-Watson = 2) oNormálně rozložená rezidua (histogram, P-P) oNezávislost jednotlivých případů oLinearita vztahu o o o o MLR: Shoda modelu s daty: R2 oČást rozptylu Y vysvětleného dohromady všemi prediktory oPredikční síla sady prediktorů oUkazatel velikosti účinku oR: Mnohonásobná (mutiple) korelace oVždy nadhodnocuje >> při replikaci vychází nižší R2 nshrinkage correction – Adjusted (upravené) R2 oWherry (SPSS, Statistica) –kdybychom model dělali z cenzových dat ncross-validation oStein (Field) – očekávané R2 při replikaci osplit-sample analýza o •X1 •X2 •X3 •Y Síla testu a velikost vzorku v MLR •Přibývá nový faktor síly testu: množství prediktorů Reportování MLR oZáklad nPopisné statistiky Y a Xi často s korelační maticí nUjištění o naplnění předpokladů nPopis shody modelu s daty – R2 , p (někdy i s Ftestem) nPřehled regresních koeficientů, b, b s jejich SE, popř. s intervaly spolehlivosti, nebo p o Zapojení kategorických prediktorů oDummy coding ->dummy variables nPomocí k−1 kategorických proměnných nIndikátorové kódování (indicator coding) oReferenční kategorie = 0 nEfektové kódování (effect coding) oReferenční kategorie = -1 n n Člen rodiny Původní proměnná Indikátorové kódování Efektové kódování Matka Otec Matka Otec Matka 1 1 0 1 0 Otec 2 0 1 0 1 Dítě 3 0 0 -1 -1 Interpretace vah dummy proměnných oY = b0 +bA1XA1 + bA2XA2 + … + bmXm + e oPo dosazení do regresní rovnice predikujeme člověku průměr jeho skupiny (pokud nejsou žádné další prediktory). oIndikátorové kódování nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou; sig bAi znamená sig rozdílu nbAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční skupině nb0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině oEfektové kódování nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a celkovým průměrem nb0 udává (při absenci jiných prediktorů) celkový průměr o ozáv: deprese opred: selfe, effi3, duv_r, duv_v, pohlavi a mat99 oSplit podle kohorty o o o o Moderace a Mediace oMODERACE a MEDIACE jsou prototypickým zapojením třetí proměnné do vztahu mezi dvěma proměnnými oTerminologii a statistiku v tomto směru ustavili před 25 lety Baron a Kenny, http://davidakenny.net/kenny.htm oMODERÁTOR je obvykle kategorická proměnná, která mění (historicky snižuje-moderuje) těsnost vztahu mezi X a Y oMEDIÁTOR je proměnná, skrze níž se odehrává vztah mezi X a Y. Vztah mezi X a Y je pouze zdánlivý, protože X ve skutečnosti ovlivňuje Moderátor a Moderátor následně ovlivňuje Y. MODERACE A MEDIACE o o Var1 Var2 Mediator Var1 Var2 Moderator Mediace 1.X signifikantně predikuje Y (! r může být při plné mediaci malá) 2.X signifikantně predikuje Mediátor 3.M signifikantně predikuje Y, je-li X kontrolována 4.Původně signifikantní vztah mezi X a Y po zařazení mediátoru klesne (ideálně na 0) 5.Nepřímý efekt X na Y (přes M) se statisticky významně liší od 0 – Sobelův test (a=BM.X, b=BY.M) 6. X Y Mediator Sobel test statistic: http://quantpsy.org/sobel/sobel.htm http://www.danielsoper.com/statcalc3/calc.aspx?id=31 Moderace oLiší se vliv X na Y např. pro muže a ženy? o http://www.jeremydawson.co.uk/slopes.htm Moderace se realizuje násobením oJe-li proměnná moderátorem vztahu prediktoru a závislé, říkáme, že moderátor interaguje s prediktorem oInteragovat mohou kategorické i intervalové proměnné oVytvoříme novou proměnnou, která je násobkem interagujících proměnných nPř. depBYpoh=Deprese*pohlaví oVložíme do regrese tuto proměnnou vedle hlavních efektů nPř. ŽS=b0 + b1*D + b2*P + b3*depBYpoh + e oRegr. koeficient vyjadřuje rozdíl vlivů jedné interagující proměnné pro různé hodnoty druhé interagující proměnné Úkol oVytvořte model predikující sebehodnocení dospívajících (položky k01–k12). oJako prediktory zařaďte ve zdůvodněném pořadí po blocích následující proměnné: nDeprese (n01 – n20), Vřelost matky (b01 – b22 – liché položky), Zdraví (l01 – l15), Vřelost otce (b01 – b22 – sudé položky), Optimismus (h01 – h08), Důvěrnost s přáteli (d01 – d12 – sudé položky) Proměnné si v datech vytvořte. oPodívejte se na model odděleně u chlapců a dívek. Zkuste se zamyslet nad možnými odlišnostmi a jejich vysvětlením. oZ analýz sepište zprávu v souladu s konvencemi. oOdevzdejte do pondělí – do 14 hodin.