PSY252 Statistická analýza dat v psychologii II Přednáška 2 {Mnohonásobná, vícenásobná} lineární regrese Multiple linear regression REGRESE, JAK JSME SI JI PŘEDSTAVILI V PSY117 o Dlouhodobá adaptace sluchu hlasitost [%] výdrž [s] 25 5 31 9 55 20 42 13 47 18 53 17 40 15 35 10 28 10 •Jak dlouho vydrží lidé nepříjemný hlasitý zvuk? • •Lze využít informaci o tom, zda člověk poslouchá osobní přehrávač na vysokou hlasitost [% z maxima přehrávače] k odhadu výdrže nepříjemného zvuku? 1. Popisné statistiky o 2. Popis vztahu o Jakou čarou tvar proložit o Lineární regrese I. - MODEL oJe-li Pearsonova korelace dobrým popisem vztahu mezi hlasitostí a výdrží, lze vztah popsat, modelovat lineární funkcí: oV’ = b0 +b1H nb1 směrnice nb0 průsečík oV = V’ + e oV = b0 +b1H + e oPozorování=Model+Chyba o o oOdhad parametrů a, b? oMetodou nejmenších čtverců (OLS) o o o o 3. Odhad parametrů modelu o o Lineární regrese II. – příklad •mh=39,6 •sh = 10,7 •mv=13,0 •sv = 4,9 •r = 0,95 výdrž’ = 0,43.hlasitost − 4,15 Namalovat pár bodů Novinky oproti PSY117 oRegr. koeficienty jsou b0 (průsečík, a, (constant)) a b1(směrnice, b) oBeta – standardizovaný regresní koeficient. nO kolik víc násobku SD proměnné Y predikujeme člověku, který má o 1SD proměnné X víc. S jedním prediktorem = r. oTesty jednotlivých regresních koeficientů. nTestují H0: bk=0. (t=b/SEb, t-rozložení s df=N-k-1, ) o o Jak dobrý je model? Predikované hodnoty a rezidua hlasitost [%] výdrž [s] výdrž’ [s] reziduum [s] 25 5 6,69 -1,69 31 9 9,29 -0,29 55 20 19,70 0,30 42 13 14,06 -1,06 47 18 16,23 1,77 53 17 18,83 -1,83 40 15 13,19 1,81 35 10 11,02 -1,02 28 10 7,99 2,01 4. Rezidua a jejich rozložení oLineárně regresní model předpokládá normálně rozložená rezidua. oNenaplnění tohoto předpokladu nzpůsobuje nepřesný odhad S.E. nMůže být způsobeno… onenormalitou závislé onelinearitou vztahu nlze mnohdy korigovat transformací Lineární regrese III. – úspěšnost predikce oKritériem kvality modelu jsou nyní nejmenší očtverce – jak malé jsou nejmenší čtverce? o oPozorování = Model + Chyba oChyba = Pozorování – Model oSuma čtverců chyb (deviance, ssres) = S(Vi−Vi‘)2 oRozptyl chyb (s2res) = S(Vi−Vi‘)2/(N-1) = o = deviance / df o o regrese2 Lineární regrese III. – úspěšnost predikce oR2 = sV‘2 / sV2 o oKoeficient determinace (R2) oPodíl rozptylu vysvětleného modelem oJe ukazatelem kvality, úspěšnosti regrese oVyjadřuje shodu modelu s daty o regrese2 Lineární regrese IV. – předpoklady, platnost oPředpoklady oprávněnosti použití lineárního modelu ojako u Pearsonovy korelace okonceptuální předpoklad: vztah je ve skutečnosti lineární orezidua mají normální rozložení o s průměrem 0 ohomoskedascita n=rozptyl reziduí (chyb odhadu) n se s rostoucím X nemění o o o o oPlatnost modelu je omezena daty, z nichž byl získán, a teorií. nExtrapolace, neoprávněná extrapolace (»jako generalizace nad rámec empirických dat) nPozor na odlehlé hodnoty – jako u všech ostatních momentových statistik n regrese4 Konstanta jako model oM: všem predikujeme stejnou hodnotu c oY‘ = c , Y = c + e oDeviance = S(Yi−c)2 oDeviance je nejnižší, když c = mY oDeviance = S(Yi−mY)2 os2res = S(Yi−mY)2 / (N-1) … tedy s2Y os2reg = 0 a tedy i R2=0 oNulový model Novinky oproti PSY117 oAdjusted R2 – jak velké R2 bychom čekali, kdybychom analýzu dělali na celé populaci (ne vzorku). Overfitting. oANOVA – test H0: R2=0. oStandard error of the estimate - sres o https://en.wikipedia.org/wiki/Overfitting o o Mnohonásobná lineární regrese oVíce prediktorů, lepší model? o oK čemu je? oJak moc přispívá proměnná X k predikci jevu Y? nInkrementální validita oLiší se muži a ženy v proměnné Y, i když zohledníme intervenující proměnnou Z? nStatistická kontrola oJe měřítko A lepším prediktorem než B? (lépe pomocí r) o o Mnohonásobná lineární regrese oPočet prediktorů není teoreticky omezen nY = (b0 +b1X1 + b2X2 + … + bkXk )+ e o oProblémy plynoucí z většího množství prediktorů nVýpočetní komplikace nKorelace mezi prediktory komplikují interpretaci – (multi)kolinearita nOtázka „pořadí“ prediktorů nMožnost neintuitivních výsledků – př. suprese n nVíce příležitostí k rybaření nMéně příležitostí si uvědomit omezenost modelu nMnožství dat více motivuje k přeskočení detailního se seznamování s daty a prozkoumávání naplnění předpokladů nZapomínání na to, že prioritou je model jako celek n n n n Příklad Long1 ozáv: deprese opred: selfe, effi, duv_r, duv_v o oCelý soubor MLR: Interpretace regresních koeficientů oY = b0 +b1X1 + b2X2 + … + bkXk + e n oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos nK porovnání síly prediktoru v různých skupinách, modelech, vzorcích obi; bi*; BETA vyjadřuje nárůst Y’ při nárůstu Xi o 1; jsou-li Xi i Y standardizovány, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos nk porovnání prediktorů mezi sebou v rámci jednoho modelu nk porovnání různě operacionalizovaného prediktoru v různých modelech nukazatel velikosti účinku ob0 – obtížně interpretovatelný průsečík … leda by prediktory byly centrované oV různých modelech nemusí být vliv prediktoru stejný o o MLR: Interpretace regresních koeficientů oY = b0 +b1X1 + b2X2 + … + bkXk + e n oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos oVýznam b lze vysoudit i dosazením do regresní rovnice o oCentrování prediktorů usnadňuje přímou interpretaci regresních koeficientů nPrůsečík pak udává predikci pro člověka, který má průměrnou hodnotu všech prediktorů o o Hrátky s prediktory oPrediktory lze do modelu vložit všechny najednou, jednotlivě, nebo po skupinkách oPorovnáváme tak vlastně mnoho modelů lišících se zahrnutými prediktory. oVše najednou = ENTER oPostupně po jednom = FORWARD oVše a postupně ubírat = BACKWARD oPo blocích, blockwise = ENTER + další blok Hierarchická lineární regrese oBloková, se sadami (sets) prediktorů oPrediktory vkládáme po skupinách (popř. jednotlivě) v teoreticky zdůvodněném pořadí oTeoreticky zdůvodněné pořadí umožňuje rozdělit rozptyl Y na smysluplné části (variance partitioning) nZměna pořadí prediktorů změní velikost těch částí oZajímá nás schopnost sady prediktorů vylepšit model nSrovnání různých oblastí vlivu na zkoumaný jev nZkoumání inkrementální validity n n Obvyklá řazení bloků oDle času, kauzální priority nPř. od dispozičním k situačním… oOd známých k neznámým vlivům nkontrola intervenujících proměnných nMinimalizace chyby 1. typu oPodle výzkumné relevance nOd ústředních po „co kdyby“; maximalizace síly o Obvyklý postup regresní analýzy oNa základě teoretických rozvah stanovíme různé modely, jejichž srovnání je potenciálně zajímavé oNejjednodušší srovnání je u hierarchických modelů, kdy je jeden model plně vnořen do následujícího – to umožňuje testovat inkrement (nárůst) R2 oAž v druhé řadě se zabýváme jednotlivými regresními koeficienty v modelu, který je nejúplnější/nejlepší Suprese o o o o Diagnostika 1: Outliery a vlivné případy oNemají některé případy příliš velký vliv na výsledky regrese? oOutliery – mohou zvyšovat i snižovat b nRezidua – případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3 nVlivné případy – případy, které nejvíc ovlivňují parametry oCo se stane s parametry regrese, když případ odstraníme? oDFBeta – rozdíl mezi parametrem s a bez, standardizované > 1 oDFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou) oCookova vzdálenost > 1 oLeverage > 2(k+1)/n , kde k = počet prediktorů, n= velikost vzorku oPřípady s vysokými rezidui či vlivné případy NEODSTRAŇUJEME o…leda by šlo o zjevnou chybu v datech či vzorku o…leda by nám šlo výhradně o zpřesnění predikce (nikoli o testy hypotéz) Studentizace je jako standardizace, ale namísto dělení směrodatnou chybou odhadu se dělí chybou reflektující to, že rezidua (pozorovaná, na rozdíl o random errors, které odhadujeme) mají směrem k extrémům menší variabilitu (protože extrémní hodnoty více ovlivňují směrnici). Daignostika 2: Kolinearita oKdyž 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný oKomplikuje porovnávání síly preditorů oSnižuje stabilitu odhadu parametrů oV extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje o oKorelace nad 0,9 oTolerance (= 1/VIF) cca pod 0,1 o(VIF (= 1/tolerance) cca nad 10) o oI při korelacích kolem 0,5 komplikuje interpretaci!! Diagnostika 3: Předpoklady regrese oZávislá alespoň intervalová, prediktory intervalové i kategorické oNenulový rozptyl prediktorů oAbsence vysoké kolinearity (žádné r > 0,9, tolerance < 0,1) oNeexistence intervenující proměnné, která by korelovala se závislou i prediktory oHomoskedascita (scatterplot ZRESID x ZPRED, parciální scatterplot) oNezávislost reziduí (Durbin-Watson = 2) oNormálně rozložená rezidua (histogram, P-P) oNezávislost jednotlivých případů oLinearita vztahu o o o o MLR: Shoda modelu s daty: R2 oČást rozptylu Y vysvětleného dohromady všemi prediktory oPredikční síla sady prediktorů oUkazatel velikosti účinku oR: Mnohonásobná (mutiple) korelace oVždy nadhodnocuje >> při replikaci vychází nižší R2 nshrinkage correction – Adjusted (upravené) R2 oWherry (SPSS, Statistica) –kdybychom model dělali z cenzových dat ncross-validation oStein (Field) – očekávané R2 při replikaci osplit-sample analýza o •X1 •X2 •X3 •Y Síla testu a velikost vzorku v MLR •Přibývá nový faktor síly testu: množství prediktorů Reportování MLR oZáklad: nPopisné statistiky Y a Xi obvykle s korelační maticí všech nUjištění o naplnění předpokladů nPopis shody modelu s daty – R2 , p (někdy i s F-testem) nPřehled regresních koeficientů, b, b s jejich SE, popř. s intervaly spolehlivosti, nebo p nLimity, např. možný dopad nedokonalého naplnění předpokladů, vlivných případů apod. o Zapojení kategorických prediktorů oDummy coding ->dummy variables nPomocí k−1 kategorických proměnných nIndikátorové kódování (indicator coding) oReferenční kategorie = 0 nEfektové kódování (effect coding) oReferenční kategorie = -1 n n Člen rodiny Původní proměnná Indikátorové kódování Efektové kódování Matka Otec Matka Otec Matka 1 1 0 1 0 Otec 2 0 1 0 1 Dítě 3 0 0 -1 -1 Interpretace vah dummy proměnných oY = b0 +bA1XA1 + bA2XA2 + … + bmXm + e oPo dosazení do regresní rovnice predikujeme člověku průměr jeho skupiny (pokud nejsou žádné další prediktory). oIndikátorové kódování nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou; sig bAi znamená sig rozdílu nbAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční skupině nb0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině oEfektové kódování nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a celkovým průměrem nb0 udává (při absenci jiných prediktorů) celkový průměr o ozáv: deprese opred: selfe, effi3, duv_r, duv_v, pohlavi a mat99 oSplit podle kohorty o o o o 1 2 3 4 5 6 Moderace a Mediace oMODERACE a MEDIACE jsou prototypickým zapojením třetí proměnné do vztahu mezi dvěma proměnnými oTerminologii a statistiku v tomto směru ustavili před 25 lety Baron a Kenny, http://davidakenny.net/kenny.htm oMODERÁTOR je obvykle kategorická proměnná, která mění (historicky snižuje-moderuje) těsnost vztahu mezi X a Y oMEDIÁTOR je proměnná, skrze níž se odehrává vztah mezi X a Y. Vztah mezi X a Y je pouze zdánlivý, protože X ve skutečnosti ovlivňuje Moderátor a Moderátor následně ovlivňuje Y. MODERACE A MEDIACE o o Var1 Var2 Mediator Var1 Var2 Moderator Mediace 1.X signifikantně predikuje Y (! r může být při plné mediaci malá) 2.X signifikantně predikuje Mediátor 3.M signifikantně predikuje Y, je-li X kontrolována 4.Původně signifikantní vztah mezi X a Y po zařazení mediátoru klesne (ideálně na 0) 5.Nepřímý efekt X na Y (přes M) se statisticky významně liší od 0 – Sobelův test (a=BM.X, b=BY.M) 6. X Y Mediator Sobel test statistic: http://quantpsy.org/sobel/sobel.htm http://www.danielsoper.com/statcalc3/calc.aspx?id=31 Moderace oLiší se vliv X na Y např. pro muže a ženy? o http://www.jeremydawson.co.uk/slopes.htm Moderace se realizuje násobením oJe-li proměnná moderátorem vztahu prediktoru a závislé, říkáme, že moderátor interaguje s prediktorem oInteragovat mohou kategorické i intervalové proměnné oVytvoříme novou proměnnou, která je násobkem interagujících proměnných nPř. depBYpoh=Deprese*pohlaví oVložíme do regrese tuto proměnnou vedle hlavních efektů nPř. ŽS=b0 + b1*D + b2*P + b3*depBYpoh + e oRegr. koeficient vyjadřuje rozdíl vlivů jedné interagující proměnné pro různé hodnoty druhé interagující proměnné Úkol oField Smart Alex‘s task Ch. 9 Task 7 s. 435 o oData: http://study.sagepub.com/sites/default/files/spss_files_0.zip oKontext: ohttps://onlinelibrary.wiley.com/doi/full/10.1111/j.1469-7610.2006.01655.x o oZ analýz sepište zprávu v souladu s konvencemi. oOdevzdejte do pondělí – do 14 hodin.