PSY252 Statistická analýza dat v psychologii II Víceúrovňový lineární model (multilevel, hierarchical, mixed, random-coefficients model) Víceúrovňová data ID Třída Výkon 100 1 11 … 1 20 120 1 31 121 2 40 .. 2 52 150 2 63 151 3 20 … 3 40 180 3 30 181 4 100 Víceúrovňová data ID Třída Výkon 100 1 11 … 1 20 120 1 31 121 2 40 .. 2 52 150 2 63 151 3 20 … 3 40 180 3 30 181 4 100 Víceúrovňová data – vnořené (nested) faktory oUrčité úrovně faktorů nižší úrovně se vyskytují pouze v jediné úrovni faktorů vyšší úrovně nProto též hierarchická data nKonkrétní třída je jen v jedné škole, žák je členem jen jedné třídy oProtikladem pro vnořené faktory jsou zkřížené (crossed) faktory – vyskytují se všechny kombinace jejich hodnot Příklady víceúrovňových dat oŽáci(L1) ve třídách (L2) ve školách (L3) v okresech (L3) … oÚčastníci experimentu (L1) testovaní po skupinkách (L2), popř. na různých místech (L2 či L3) o… oOpakovaná měření (L1) týchž lidí (L2) Víceúrovňovost způsobuje závislost reziduí oPokud proměnná definující skupiny na vyšší úrovni jakkoli souvisí s modelovanou charakteristikou, její ignorování způsobuje to, že rezidua lidí ve skupině si budou podobnější než rezidua lidí napříč skupinami. Rezidua červených jsou většinou záporná, šedých většinou kladná, černých +- Víceúrovňový model zohledňuje závislost reziduí danou členstvím ve skupinách oYi = b0 +b1Xi + ei o oYij = b0j +b1jXij + eij <1. úroveň> ob0j = b0 + u0j <2. úroveň> o o o Průsečík ve skupině j Průměrný průsečík Odchylka průsečíku skupiny j od průměrného průsečíku Odchylky …. rozptyl b0 se stává náhodným koeficientem (random coefficient) Víceúrovňový model zohledňuje závislost reziduí danou členstvím ve skupinách oYij = b0j +b1jXij + eij <1. úroveň> ob0j = b0 + u0j <2. úroveň> o oAlternativně (dosazením sloučeno) oYij = (b0 + u0j) +b1jXij + eij oYij = b0 +b1jXij + (eij + u0j) o o o Random-intercepts model Yij = b0 +b1jXij + (eij + u0j) oY predikovaná proměnná oEfekty (fixed effects) ob0 průměrný průsečík napříč skupinami ob1j efekt pro všechny skupiny (není random) oStruktura reziduí (kovarianční parametry) oVar(u0j) rozptyl průsečíků, u0j ~N(0, s2u0) oVar(eij) rozptyl reziduí, eij ~N(0, s2e) oModel má 4 odhadované parametry. o Příklad – Skotské zkoušky oLiší se holky a kluci ve výsledku testů? oAno, mB-mG=-5,5 (t(1903)=5,57, d≈0,25) oJenže různé školy se liší jednak průměrnou výkonností, tak zastoupením pohlaví. oPokud by náhodou bylo ve škole s vysokou výkonností více kluků, mohli by kluci vyjít lépe jen díky tomu. oNavíc, Durbin-Watson = 1,4 o o o o REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI(95) R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT test /METHOD=ENTER gender. Příklad – Skotské zkoušky oLiší se holky a kluci ve výsledku testů? oMultilevel model, kde je zohledněno to, jaké školy žáci pochází oRandom-intercept model = předpokládáme, že nškoly se liší průměrnou výkonností v testu (random Intercept) nrozdíl mezi pohlavími je ve všech školách stejný (fixed Slope) nID jsou vnořena do škol oTestij = b0Š +b1Genderi + eiŠ <1. úroveň> ob0Š = b0 + u0Š <2. úroveň> o o o o o o REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI(95) R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT test /METHOD=ENTER gender. MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=gender | SSTYPE(3) /METHOD=REML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=INTERCEPT | SUBJECT(School) COVTYPE(VC). Nepodmíněný model průměrů Unconditional means model, variance components oModel bez prediktorů zohledňující strukturu dat oPouze dělí rozptyl na reziduální rozptyl a rozptyl průměrů skupin nICC=rozptyl průměrů/(rozptyl průměrů+reziduální rozptyl) nICC= jaká část rozptylu výkonů je vysvětlitelná pouze rozdíly mezi školami? o3 parametry – průměrný průměr škol (b0), rozptyl průměrů škol, rozptyl reziduí (variabilita uvnitř škol) oTestij = b0Š + eiŠ <1. úroveň> ob0Š = b0 + u0Š <2. úroveň> o o ODBOČKA MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept | SSTYPE(3) /METHOD=ML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=INTERCEPT | SUBJECT(School) COVTYPE(VC). Random-intercepts model oPředpokládá, nže jednotky vyššího řádu se liší svým průměrem, nže průměry mají normální rozložení nže efekty jsou stejné (fixed) napříč všemi jednotkami vyššího řádu nže rezidua jsou napříč jednotkami vyššího řádu stejná o Random-slopes model oPředpokládá, nže všechny jednotky vyššího řádu mají stejný průměr, nže efekt prediktoru je v každé jednotce vyššího řádu jiný a nže tyto efekty mají nějakou průměrnou hodnotu a nějakou variabilitu o Random-slopes model oYij = b0 +b1jXij + eij <1. úroveň> ob1j = b1 + u1j <2. úroveň> o oAlternativně (dosazením sloučeno) oYij = b0 +(b1 + u1j)Xij + eij oYij = b0 +b1Xij + (eij + u1j) o oJen zřídka má smysl předpokládat, náhodné efekty při fixovaných průsečících! o o Random intercept and slope model oPředpokládá, ože jednotky vyššího řádu mají různé průměry(průsečíky), ože efekt prediktoru je v každé jednotce vyššího řádu jiný, ože tyto průsečíky i efekty mají nějakou průměrnou hodnotu a nějakou variabilitu napříč skupinami, ože reziduální rozptyl je napříč skupinami konstatní. oLze uvažovat i to, že mezi hodnotou průsečíku a efektu je nějaká korelace. o o o Random intercept and slope model oYij = b0j +b1jXij + eij <1. úroveň> ob0j = b0 + u0j <2. úroveň> ob1j = b1 + u1j <2. úroveň> oAlternativně (dosazením sloučeno) oYij = b0 +b1Xij + (eij + u0j + u1j) o o Random intercept and slope model Yij = b0 +b1Xij + (eij + u0j + u1j) oEfekty (fixed effects) ob0 průměrný průsečík napříč skupinami ob1 průměrný efekt pro všechny skupiny oStruktura reziduí (kovarianční parametry) oVar(u0j) rozptyl průsečíků, u0j ~N(0, s2u0) oVar(u0j) rozptyl efektů, u0j ~N(0, s2u1) oVar(eij) rozptyl reziduí, u0j ~N(0, s2e) oModel má 5 odhadovaných parametrů. oŠestý Cov(u0j, u1j) kovariance průsečíků s efekty o Příklad – Skotské zkoušky oLiší se holky a kluci ve výsledku testů? oZvažme, zda se mohou lišit i efekty napříč školami o oTestiŠ = b0 +b1GenderiŠ + (eij + u0Š + u1Š) o o o o MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept gender | SSTYPE(3) /METHOD=ML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=intercept gender | SUBJECT(School) COVTYPE(VC). MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept gender | SSTYPE(3) /METHOD=ML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=intercept gender | SUBJECT(School) COVTYPE(UN). Příklad – Skotské zkoušky oTesti = (79±11)–(3,9±1,8)Genderi ±17,8 o oJsou-li kluci 0 a holky 1, pak… oVýkon průměrného kluka v průměrné škole je 79, přičemž školy se liší tak, že výkony průměrných kluků mají SD=11. oPrůměrná holka má v průměrné škole o 3,9 bodu míň. oI když napříč školami mají rozdíly mezi průměrnou holkou a průměrným klukem SD=1,8, rozptyl efektů není signifikantně odlišný od 0. o Shrnutí oMultilevel modely nám umožňují modelovat to, že některé parametry regresního modelu se mohou pro různé skupiny lišit. oOd moderace se to liší tím, že různost parametrů má podobu normálního rozložení. Nezajímáme se o hodnoty pro jednotlivé skupiny – ze vzorku skupin usuzujeme na populaci skupin oS tím je spojen předpoklad, že vzorek jednotek druhé úrovně (skupin) je reprezentativním vzorkem populace skupin o o o Shoda modelu s daty oPodobně jako u logistické regrese vyjadřují celkový fit modelu informační kritéria založená na -2LL nAIC, AICC, CAIC, BIC oVnořené modely lze srovnávat LRT – rozdíl -2LL dvou vnořených modelů má chí-kvadrát rozložení s df rovným rozdílu v počtu parametrů mezi srovnávanými modely (nefunguje s REML) Typy kovariančních struktur oVe výše popsaných modelech jsou smysluplné jen 2 volby a hraje to roli, jen, když máme v modelu více než 1 náhodný koeficient oVC – Variance components – náhodné koeficienty nekorelují oUN – Unstructured – náhodné koeficienty mohou korelovat Čtěte opatrně, Andy tu nejistě mlží. Předpoklady oJako lineární regrese oJe-li závislost reziduí modelovatelná (=je to skupinami), vyléčí se tím problém Prediktor na úrovni skupin oDo modelu lze vložit i prediktor, který vysvětluje rozdíly mezi skupinami. oNapříklad „nóblóznost“ spádové oblasti školy – nbrhd o o MIXED test WITH gender nbrhd /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept gender nbrhd | SSTYPE(3) /METHOD=REML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=INTERCEPT | SUBJECT(School) COVTYPE(VC). o Longitudinální, repeated data o1. úroveň: měření o2. úroveň: jednotlivec oČas, či pořadí měření je proměnnou na 1. úrovni. nČas může nabývat různé hodnoty pro různé lidi v různé časy měření oCharakteristiky jednotlivců jsou proměnnými na 2. úrovni. oLATENT GROWTH-CURVE MODELING o ŠIROKÁ VS. DLOUHÁ DATA ID Stres EDA 101A Klid 1 101A Stres1 2 101A Stres2 3 102A Klid 4 102A Stres1 5 102A Stres2 6 … 199A Klid 5 199A Stres1 3 199A Stres2 5 ID EDA klid EDA stres1 EDA stres2 101A 1 2 3 102A 4 5 6 … 199A 5 3 5 • Převod širokých dat na dlouhá a zpět oSPSS >> Data >> Restructure (VARSTOCASES) o o