PSYb2520 Statistická analýza dat v psychologii II Víceúrovňový lineární model (multilevel, hierarchical, mixed, random-coefficients model) Víceúrovňová data ID Třída Výkon 100 1 11 … 1 20 120 1 31 121 2 40 .. 2 52 150 2 63 151 3 20 … 3 40 180 3 30 181 4 100 Víceúrovňová data ID Třída Výkon 100 1 11 … 1 20 120 1 31 121 2 40 .. 2 52 150 2 63 151 3 20 … 3 40 180 3 30 181 4 100 Víceúrovňová data – vnořené (nested) faktory oUrčité úrovně faktorů nižší úrovně se vyskytují pouze v jediné úrovni faktorů vyšší úrovně nProto též hierarchická data - Multilevel linear model nKonkrétní třída je jen v jedné škole, žák je členem jen jedné třídy oProtikladem pro vnořené faktory jsou zkřížené (crossed) faktory – vyskytují se všechny kombinace jejich hodnot nMixed linear model Příklady víceúrovňových dat oŽáci(L1) ve třídách (L2) ve školách (L3) v okresech (L4) … oÚčastníci experimentu (L1) testovaní po skupinkách (L2), popř. na různých místech (L2 či L3) o… oOpakovaná měření (L1) týchž lidí (L2) Víceúrovňovost způsobuje závislost reziduí oPokud proměnná definující skupiny na vyšší úrovni jakkoli souvisí s modelovanou charakteristikou, její ignorování způsobuje to, že rezidua lidí ve skupině si budou podobnější než rezidua lidí napříč skupinami. o oMůže mít podobu třeba rozdílných průměrů skupin nebo rozdílných efektů prediktoru na závislou v různých skupinách Rezidua červených jsou většinou záporná, šedých většinou kladná, černých +- Odbočka Autokorelace oJak vyjádříme to, že jsou si rezidua jednotlivců uvnitř skupin podobnější? = neplatnost nezávislosti reziduí oJedním způsobem je udělat na reziduích ANOVu se skupinou jako faktorem… oNěkdy se k tomu využívá autokorelace – korelace proměnné se sebou samotnou posunutou o jeden (lag 1) nebo více případů oV SPSS funkce ACF (Analyze > Forecasting > Autocorrelations) oZ této části statistiky přichází i test Durbin-Watson X X (lag 1) 1 2 2 3 3 45 45 6 6 8 8 7 7 4 4 5 5 21 21 Chceme tedy zohlednit to, že vztahy, které zjišťujeme se mohou lišit napříč L2 skupinami oLineární regrese, jak ji známe oYi = b0 +b1X1i +b2X2i + ei nb0, b1, b2 platí pro všechny lidi i nPro predikci dosazujeme každému člověku i jeho hodnoty X1 a X2 nb0, b1, b2 jsou fixované koeficienty/efekty o Chceme tedy zohlednit to, že vztahy, které zjišťujeme se mohou lišit napříč L2 skupinami oJak bychom mohli zajistit, aby se b0, b1 nebo b2 mohly lišit napříč skupinami? oYi = b0j +b1X1i +b2X2i + ei o b0j =b00 + u0j nPro predikci dosazujeme každému člověku i jeho hodnoty X1 a X2 , ale průsečík b0 použijeme takový, které platí ve skupině, do které člověk i patří nb1, b2 jsou fixované koeficienty/efekty nPrůsečík b0 je náhodný koeficient/efekt n o Víceúrovňový model zohledňuje závislost reziduí danou členstvím ve skupinách oYi = b0 +b1Xi + ei o oYij = b0j +b1jXij + eij <1. úroveň> ob0j = b00 + u0j <2. úroveň> o o o Průsečík ve skupině j Průměrný průsečík Odchylka průsečíku skupiny j od průměrného průsečíku Odchylky …. rozptyl b0 se stává náhodným koeficientem (random coefficient) Víceúrovňový model zohledňuje závislost reziduí danou členstvím ve skupinách oYij = b0j +b1jXij + eij <1. úroveň> ob0j = b00 + u0j <2. úroveň> o oAlternativně (dosazením sloučeno) oYij = (b00 + u0j) +b1jXij + eij oYij = b00 +b1jXij + (eij + u0j) o o o Random-intercept model Y‘ij = b00 +b1Xij + (eij + u0j) oY‘ij predikovaná hodnota Y člověka i (ze skupiny j) oEfekty (fixed effects) ob00 průměrný průsečík napříč skupinami ob1 efekt pro všechny skupiny (není random) oStruktura reziduí (kovarianční parametry) oVar(u0j) rozptyl průsečíků napříč skupinami, u0j ~N(0, s2u0) oVar(eij) rozptyl reziduí, eij ~N(0, s2e) oModel má 4 odhadované parametry. o Příklad – Skotské zkoušky oLiší se holky a kluci ve výsledku testů? oAno, mB-mG=-5,5 (t(1903)=5,57, d≈0,25) o o o o REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI(95) R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT test /METHOD=ENTER gender. Příklad – Skotské zkoušky oLiší se holky a kluci ve výsledku testů? oAno, mB-mG=-5,5 (t(1903)=5,57, d≈0,25) oTesti = b0 +b1Genderi + ei oTesti = 78,2 – 5,5Genderi + ei o o o o oJenže různé školy se liší průměrnou výkonností, ale i zastoupením pohlaví. o o o o REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI(95) R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT test /METHOD=ENTER gender. Příklad – Skotské zkoušky oLiší se holky a kluci ve výsledku testů? oAno, mB-mG=-5,5 (t(1903)=5,57, d≈0,25) oJenže různé školy se liší jednak průměrnou výkonností, tak zastoupením pohlaví. oPokud by náhodou bylo ve školách s vysokou výkonností více kluků, mohli by kluci vyjít lépe jen díky tomu. oNavíc, Durbin-Watson = 1,4 (a lag-1 ACF = 0,31) o o o o REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI(95) R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT test /METHOD=ENTER gender. Příklad – Skotské zkoušky oLiší se holky a kluci ve výsledku testů? oMultilevel model, kde je zohledněno to, jaké školy žáci pochází oRandom-intercept model = předpokládáme, že nškoly se liší průměrnou výkonností v testu (random Intercept) nrozdíl mezi pohlavími je ve všech školách stejný (fixed Slope/effect) nID jsou vnořena do škol – škola je L2 proměnná oTestiŠ = b0Š +b1Genderi + eiŠ <1. úroveň> ob0Š = b00 + u0Š <2. úroveň> o o o o o o REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI(95) R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT test /METHOD=ENTER gender. MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=gender | SSTYPE(3) /METHOD=ML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=INTERCEPT | SUBJECT(School) COVTYPE(VC). Specifikace ML modelu v SPSS oAnalyze -> Mixed models -> Linear o1. okno: L2 proměnnou do Subjects nSchool do Subjects o2. okno nZP do Dependent variable, kategorické do Factors, spojité so Covariates nFixed: oVložit všechny prediktory (a případné interakce), zaškrtnout Include intercept nRandom: oCovariance type: VC, nebo UN oZaškrtnutím „Include intercept“, má-li být průsečík random oTy efekty, které mají být random, vložíme do Model oL2 proměnnou dáme do Combinations nEstimation: ML o o Když neuvedeme nějaký efekt (vč. Průsečíku) jako fixed (ale jen jako random), tak tím vlastně říkáme, že průměrný efekt je 0. To, až na výjimky, nechceme. Pro každou školu je regresní rovnice trochu jiná o oPrůměr výkonu kluků v průměrné škole je 79,18 oRozdíl mezi pohlavími korigovaný na průměrnou úroveň škol ji -3,99 (-5,5 před korekcí). o oRezidua mají M=0 a SD=17,84 oŠkolní průměrné výkony kluků mají normální rozložení s průměrem 79,18 a SD=11,19 oŠkolní průměrné výkony holek jsou o 3,99 nižší. o Nepodmíněný model průměrů Unconditional means model, variance components oModel bez prediktorů zohledňující strukturu dat oPouze dělí rozptyl na reziduální rozptyl a rozptyl průměrů skupin nICC=rozptyl průměrů/(rozptyl průměrů+reziduální rozptyl) nICC= jaká část rozptylu výkonů je vysvětlitelná pouze rozdíly mezi školami? o3 parametry – průměrný průměr škol (b00), rozptyl průměrů škol, rozptyl reziduí (variabilita uvnitř škol) oTestij = b0Š + eiŠ <1. úroveň> ob0Š = b00 + u0Š <2. úroveň> o o ODBOČKA MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept | SSTYPE(3) /METHOD=ML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=INTERCEPT | SUBJECT(School) COVTYPE(VC). Random-intercepts model oPředpokládá, nže jednotky vyššího řádu se liší svým průměrem, oa že průměry mají normální rozložení, nže efekty prediktorů jsou stejné (fixed) napříč všemi jednotkami vyššího řádu nže rezidua jsou napříč jednotkami vyššího řádu stejná o Random-slopes model oPředpokládá, nže všechny jednotky vyššího řádu mají stejný průměr, nže efekt prediktoru je v každé jednotce vyššího řádu jiný a nže tyto efekty mají nějakou průměrnou hodnotu a nějakou variabilitu o Random-slopes model oYij = b0 +b1jXij + eij <1. úroveň> ob1j = b10 + u1j <2. úroveň> o oAlternativně (dosazením sloučeno) oYij = b0 +(b10 + u1j)Xij + eij oYij = b0 + b10Xij + (eij + u1j) o oJen zřídka má smysl předpokládat náhodné efekty při fixovaných průsečících! o o Random intercept and slope model oPředpokládá, ože jednotky vyššího řádu mají různé průměry(průsečíky), ože efekt prediktoru je v každé jednotce vyššího řádu jiný, ože tyto průsečíky i efekty mají nějakou průměrnou hodnotu a nějakou variabilitu napříč skupinami, ože reziduální rozptyl je napříč skupinami konstantní. oLze uvažovat i to, že mezi hodnotou průsečíku a efektu je nějaká korelace. o o o Random intercept and slope model oYij = b0j +b1jXij + eij <1. úroveň> ob0j = b00 + u0j <2. úroveň> ob1j = b10 + u1j <2. úroveň> oAlternativně (dosazením sloučeno) oYij = b00 +b10Xij + (eij + u0j + Xiju1j) o o Random intercept and slope model Yij = b00 +b10Xij + (eij + u0j + Xiju1j) oEfekty (fixed effects) ob00 průměrný průsečík napříč skupinami ob10 průměrný efekt pro všechny skupiny oStruktura reziduí (kovarianční parametry) oVar(u0j) rozptyl průsečíků, u0j ~N(0, s2u0) oVar(u1j) rozptyl efektů, u1j ~N(0, s2u1) oVar(eij) rozptyl reziduí, eij ~N(0, s2e) oModel má 5 odhadovaných parametrů. oŠestý Cov(u0j, u1j) kovariance průsečíků s efekty o Příklad – Skotské zkoušky oLiší se holky a kluci ve výsledku testů? oZvažme, zda se mohou lišit i efekty napříč školami o oTestiŠ = b00 +b10GiŠ + (eij + u0Š + GiŠu1Š) o o o o MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept gender | SSTYPE(3) /METHOD=ML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=intercept gender | SUBJECT(School) COVTYPE(VC). MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept gender | SSTYPE(3) /METHOD=ML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=intercept gender | SUBJECT(School) COVTYPE(UN). Příklad – Skotské zkoušky oTesti = (79±12)–(4,0±2,7)Gi ±17,8 o oJsou-li kluci 0 a holky 1, pak… oVýkon průměrného kluka v průměrné škole je 79, přičemž školy se liší tak, že výkony průměrných kluků mají SD=12. oPrůměrná holka má v průměrné škole o 4,0 bodu míň. oI když napříč školami mají rozdíly mezi průměrnou holkou a průměrným klukem SD=2,7, rozptyl efektů není signifikantně odlišný od 0. oČím vyšší je průměr kluků ve škole, tím nižší (větší) je rozdíl jejich průměru od průměru holek, r=-0,3 o o Shrnutí oMultilevel modely nám umožňují modelovat to, že některé parametry regresního modelu se mohou pro různé skupiny lišit. oOd moderace se to liší tím, že různost parametrů má podobu normálního rozložení. Nezajímáme se o hodnoty pro jednotlivé skupiny – ze vzorku skupin usuzujeme na populaci skupin oS tím je spojen předpoklad, že vzorek jednotek druhé úrovně (skupin) je reprezentativním vzorkem populace skupin o o o Prediktor na úrovni skupin oZatím jsme měli prediktor na L1 - pohlaví oDo modelu lze vložit i prediktor, který vysvětluje rozdíly mezi skupinami. oNapříklad „nóblóznost“ spádové oblasti školy – nbrhd o o MIXED test WITH gender nbrhd /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept gender nbrhd | SSTYPE(3) /METHOD=REML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=INTERCEPT | SUBJECT(School) COVTYPE(VC). Random intercept and slope model s prediktorem na úrovni skupin S oYij = b0j +b1jXij + eij <1. úroveň> ob0j = b00 + b01Sij + u0j <2. úroveň> ob1j = b10 + b11Sij + u1j <2. úroveň> o oS může být prediktorem náhodného průsečíku, směrnice, nebo obojího oJeho zařazení pak vysvětluje rozptyl daného náhodného parametru o Příklad – Skotské zkoušky oLiší se holky a kluci ve výsledku testů? oA liší se i efekt školy, pokud je v chudém sousedství? o oTestij = b0Š +b1Gi + eiŠ <1. úroveň> o b0Š = b00 + b01 NŠ +u0Š <2. úroveň> o oTestiŠ = b00 + b01 NŠ +b10GiŠ + (eij + u0Š + u1Š) o o o o MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept gender | SSTYPE(3) /METHOD=ML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=intercept gender | SUBJECT(School) COVTYPE(VC). MIXED test WITH gender /CRITERIA=CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0, ABSOLUTE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0.000001, ABSOLUTE) /FIXED=intercept gender | SSTYPE(3) /METHOD=ML /PRINT=DESCRIPTIVES SOLUTION TESTCOV /RANDOM=intercept gender | SUBJECT(School) COVTYPE(UN). o Shoda modelu s daty oPodobně jako u logistické regrese vyjadřují celkový fit modelu informační kritéria založená na -2LL nAIC, AICC, CAIC, BIC oVnořené modely lze srovnávat LRT – rozdíl -2LL dvou vnořených modelů má chí-kvadrát rozložení s df rovným rozdílu v počtu parametrů mezi srovnávanými modely (nefunguje s REML) REML vs ML oDva způsoby odhadu parametrů multilevel modelu oML – Maximum likelihood nPodhodnocuje odhady rozptylů – reziduálního i random parametrů nProdukuje -2LL, které mají chíkvadrát rozložení umožňující srovnávání modelů pomocí LRT oREML – Restricted Maximum Likelihood nPoskytuje nezkreslené odhady roztptylů nProdukuje -2LL, který se neá použít pro LRT nVýchozí možnost v SPSS oReportujeme REML parametry, modely srovnáváme mezi sebou prostřednictvím -2LL hodnot získaných ML odhadem Velikost účinku Multilevel alternativy R2 oICC – vnitrotřídní korelační koeficient nRandom means model dělí rozptyl na reziduální rozptyl a rozptyl způsobený rozdílnými průměry skupin nICC=rozptyl interceptů/(rozptyl interceptů+reziduální rozptyl) nICC= jaká část rozptylu výkonů je vysvětlitelná pouze rozdíly mezi L2 skupinami (př. školami) oKdyž přidáme L1 prediktor, měl by klesnout reziduální rozptyl à R2within=1-(s2e (s prediktorem)/ s2e(bez prediktoru)) nInterpretujeme jako R2 v běžné regresi oL2 prediktor by měl snížit rozptyl náhodného efektu à R2between=1-(s2u (s prediktorem)/ s2u(bez prediktoru)) nInterpretujeme: prediktor vysvětlil x% rozptylu průsečíků o Typy kovariančních struktur náhodných koeficientů oVe výše popsaných modelech jsou smysluplné jen 2 volby a hraje to roli, jen, když máme v modelu více než 1 náhodný koeficient oVC – Variance components – náhodné koeficienty nekorelují oUN – Unstructured – náhodné koeficienty mohou korelovat Čtěte opatrně, Andy tu nejistě mlží. (i v 5. vydání) Předpoklady oJako lineární regrese oJe-li závislost reziduí modelovatelná (=je to skupinami), vyléčí se tím problém o oDostatečný počet jednotek i na druhé a vyšší úrovni (přibližně >20) pro dobrý odhad s2u o Benefity Multilevel/Mixed modelu oV mnoha situacích vyšší síla testu oVyšší tolerance k chybějícím datům oJednotné uvažování o spojitých a diskrétních proměnných oMožnost modelovat heteroskedascitu o Longitudinální, repeated data o1. úroveň: měření o2. úroveň: jednotlivec oČas, či pořadí měření je proměnnou na 1. úrovni. nČas může nabývat různé hodnoty pro různé lidi v různé časy měření oCharakteristiky jednotlivců jsou proměnnými na 2. úrovni. oLATENT GROWTH-CURVE MODELING o ŠIROKÁ VS. DLOUHÁ DATA ID Stres EDA 101A Klid 1 101A Stres1 2 101A Stres2 3 102A Klid 4 102A Stres1 5 102A Stres2 6 … 199A Klid 5 199A Stres1 3 199A Stres2 5 ID EDA klid EDA stres1 EDA stres2 101A 1 2 3 102A 4 5 6 … 199A 5 3 5 Převod širokých dat na dlouhá a zpět oSPSS >> Data >> Restructure (VARSTOCASES) o o