ANOVA & spol. JAN ŠEREK & STANDA JEŽEK PSYB2520 STATISTICKÁ ANALÝZA DAT II Program dnešní přednášky jednofaktorová (one-way) ANOVA faktoriální (two…-way) ANOVA ANCOVA (ANOVA s kovariáty) MANOVA (ANOVA s více závislými) ANOVA pro opakovaná měření ANOVA (analysis of variance) ANOVA (analysis of variance) 1 nezávislá kategorická à 1 závislá intervalová ANOVA (analysis of variance) 1 nezávislá kategorická à 1 závislá intervalová v jazyku ANOVY se tato nezávislá kategorická proměnná nazývá faktor, který má určité úrovně ANOVA – 2 základní kroky ANOVA jako regrese Yi = μ + εi Hodnota závislé proměnné člověka i Celkový průměr Nevysvětlená individuální variabilita ANOVA jako regrese Yi = μ + εi Hodnota závislé proměnné člověka i Celkový průměr Nevysvětlená individuální variabilita Yij = μ + α j + εij Vliv toho, že je člověk členem skupiny j ANOVA jako regrese Yi = μ + εi Hodnota závislé proměnné člověka i Celkový průměr Nevysvětlená individuální variabilita Yi = μ + α j + εi Vliv toho, že je člověk členem skupiny j Podstata ANOVY Jak dobře je závislá proměnná vysvětlena modelem, který předpokládá odlišnost skupin (α ≠ 0)? Nepostačí nám stejně dobře model, který předpokládá, že se skupiny neliší? ANOVA jako regrese Souvisí socioekonomický status rodiny s tím, jak často dítě používá internet? Nezávislá kategorická proměnná (faktor): socioekonomický status 3 hodnoty (úrovně): nízký, střední, vysoký Závislá intervalová proměnná: frekvence používání internetu Liší se děti z rodin s nízkým, středním a vysokým SES v tom, jak často používají internet? SES: DPSESHH3 FREKVENCE: DCTIMEUSE ANOVA jako regrese INETi = μ + εi INETi = μ + SES j + εi Vliv toho, že je člověk členem skupiny j Celkový průměr ANOVA jako regrese [inet]i = [průměrný inet] + εi ANOVA jako regrese [inet]i = [průměrný inet] + εi [inet]i = [průměrný inet] + b[ses] + εi ANOVA jako regrese [inet]i = [průměrný inet] + εi [inet]i = [průměrný inet] + b[ses] + εi Každá kategorická proměnná o k hodnotách (úrovních) může být vyjádřena souborem k-1 binárních dummy proměnných. 3 typy SESà 2 binární proměnné vys a str vys = 1 & str = 0 à vysoký SES vys = 0 & str = 1 à střední SES vys = 0 & str = 0 à nízký SES ANOVA jako regrese [inet]i = [průměrný inet] + εi [inet]i = [průměrný inet] + b[ses] + εi [inet]i = b0 + b1[vys] + b2[str] + εi Každá kategorická proměnná o k hodnotách (úrovních) může být vyjádřena souborem k-1 binárních dummy proměnných. 3 typy SESà 2 binární proměnné vys a str vys = 1 & str = 0 à vysoký SES vys = 0 & str = 1 à střední SES vys = 0 & str = 0 à nízký SES ANOVA jako regrese [inet]i = [průměrný inet] + εi [inet]i = [průměrný inet] + b[ses] + εi [inet]i = b0 + b1[vys] + b2[str] + εi Každá kategorická proměnná o k hodnotách (úrovních) může být vyjádřena souborem k-1 binárních dummy proměnných. 3 typy SESà 2 binární proměnné vys a str vys = 1 & str = 0 à vysoký SES vys = 0 & str = 1 à střední SES vys = 0 & str = 0 à nízký SES Průměrná frekvence dětí z rodin s nízkým SES O kolik se liší průměrná frekvence dětí z rodin s vysokým SES O kolik se liší průměrná frekvence dětí z rodin se středním SES ANOVA jako regrese [inet]i = [průměrný inet] + εi [inet]i = [průměrný inet] + b[ses] + εi [inet]i = b0 + b1[vys] + b2[str] + εi Každá kategorická proměnná o k hodnotách (úrovních) může být vyjádřena souborem k-1 binárních dummy proměnných. 3 typy SESà 2 binární proměnné vys a str vys = 1 & str = 0 à vysoký SES vys = 0 & str = 1 à střední SES vys = 0 & str = 0 à nízký SES Průměrná frekvence dětí z rodin s nízkým SES O kolik se liší průměrná frekvence dětí z rodin s vysokým SES O kolik se liší průměrná frekvence dětí z rodin se středním SES Jestliže b1 = 0 a b2 = 0, znamená to, že SES nemá žádný vliv a všechny skupiny mají stejnou průměrnou frekvenci. Potom by nám postačil základní model predikující frekvenci pouze z celkové průměrné frekvence a nevysvětlitelné individuální variability. Vysvětlí nám model předpokládající nenulové b1 a/nebo b2 něco navíc? ANOVA jako regrese [inet]i = [průměrný inet] + b[ses] + εi [inet]i = b0 + b1[vys] + b2[str] + εi efektové kódování SESà vys a str vys = 1 & str = 0 pro vysoký SES vys = 0 & str = 1 pro střední SES vys = -1 & str = -1 pro nízký SES nízký SES stále referenční, ale b vyjadřují rozdíl skupinového průměru proti celkovému Lze SES nakódovat tak, aby b0 byl celkový průměr? ANOVA jako regrese Yi = μ + εi Hodnota závislé proměnné člověka i Celkový průměr Nevysvětlená individuální variabilita Yi = μ + α j + εi Vliv toho, že je člověk členem skupiny j Podstata ANOVY Jak dobře je závislá proměnná vysvětlena modelem, který předpokládá odlišnost skupin (α ≠ 0)? Nepostačí nám stejně dobře model, který předpokládá, že se skupiny neliší? ANOVA jako ANOVA V rámci lineární regrese umíme modelovat vliv kategorické nezávislé pomocí dummy proměnných a víme, že regresní koeficienty b udávají rozdíly průměrů indikovaných skupin oproti referenční skupině. Dokázali bychom použít i efektové kódování místo indikátorového a testovat tak rozdíly průměrů indikovaných skupin oproti celkovému průměru. Jak ale srovnává průměry ANOVA? Jiným způsobem, který je ale ve výsledku ekvivalentní regresi. ANOVA je Analýza rozptylu *Nepočítáme tedy rozdíly mezi jednotlivci navzájem, ale vyjadřujeme ty rozdíly jako odchylky od společného průměru. **Je to proto, že to není úplně přesně rozptyl, ale odhad rozptylu. Suma čtverců meziskupinová (modelová) SSB, SSM Měřítko toho, jak moc se průměry skupin liší. Jak vysoká je SS jenom díky rozdílům skupinových průměrů? ◦= Jaká by byla SS, kdyby měli všichni členové skupin hodnotu právě rovnou průměru skupiny? Tj. odchylky členů od průměru skupiny ignorujeme. ◦= Kolik variability ZP lze připsat odlišnostem mezi průměry skupin (modelu)? SSM = ∑j velikost skupiny j * (průměr skupiny j – celkový průměr)2 MSM = SSM / dfM kde dfM = (počet skupin – 1)* *Proč je těch df tak málo? Protože jsme tentokrát SS vypočítali jen z několika kousků informace, statistik. Hodnoty jednotlivých respondentů zde vlastně ve výpočtu nefigurovaly. Co tedy vlastně MSM znamená, kdybychom ho chtěli vnímat jako rozptyl? Je to na první pohled trochu zašmodrchané, ale v zásadě je o odhad rozptylu v populaci z odlišnosti průměrů zjištěných ve skupinách. Představme si, že jsme změřili závislou v několika skupinách lidí. Jsme si jistí, že platí H0. Pokud se pozorované průměry těch skupin liší, pak to může být jedině výběrovou chybou. Rozptyl průměrů je tedy vlastně směrodatná chyba průměrů na druhou. Když známe směrodatnou chybu a velikost skupin, dokážeme spočítat, jaká směrodatná odchylka musí být v populaci, aby se pozorované průměry skupin mohly tak moc mezi sebou lišit (když se v souladu s předpokladem o platnosti H0doopravdy v populaci lišit nemohou). Skoro bychom mohli být hotoví… SSM / SST vyjadřuje, jaký podíl z celkového rozptylu proměnné je vysvětlen tím, že různí lidé pocházejí z různých skupin, které se liší svým průměrem § Je to ekvivalent R2 Jmenuje se h2 éta na druhou, eta squared § „Přeložili“ jsme rozdíly mezi průměry do vysvětleného rozptylu. § h2 je stejně jako R2 nadhodnocené, a tak si ukážeme jeho korigovanou verzi w2 Stále ještě nevíme, jak moc může být SSM nadhodnocené jen díky výběrové chybě, tak abychom mohli otestovat H0. § § Suma čtverců vnitroskupinová (reziduální) SSW, SSR Měřítko toho, jak moc se lidé liší mezi sebou uvnitř skupin. Jak velkou část SST tvoří odchylky jednotlivce od průměru jeho skupiny? SSW jako WITHIN-GROUP SSR jako RESIDUAL* Lze také říci: Jaká by byla SS, kdyby měly všechny skupiny stejný průměr? ◦Lze interpretovat jako vážený průměr rozptylů uvnitř skupin. SSR = ∑ij (hodnota člověka i ze skupiny j – průměr skupiny j)2 MSR = SSR / dfR dfR = (celkový počet lidí – počet skupin) *Ano, residuální rozptyl. Ten samý, co známe z regrese. Je-li náš model tak jednoduchý, že každému predikujeme průměr jeho skupiny, jsou odchylky jednotlivců od průměru skupiny vlastně residua toho modelu. Dílčí sumy čtverců se nasčítají do celkové SST = SSM + SSR Stupně volnosti se se také nasčítají – reprezentují „kousky využitých informací“ dfT = dfM + dfR Pro střední čtverce to neplatí, protože ve jmenovateli jsou pokaždé jiné stupně volnosti. Neplatí tedy MST = MSM + MSR! Ale pokud platí H0, pak MSM = MSR ANOVA – statistika F F = MSM / MSR Platí-li H0 očekáváme F kolem 1. Čím vyšší F, tím více záleží na rozdělení lidí do jednotlivých skupin, tj. tím více se skupiny od sebe liší v závislé proměnné F je výběrová statistika, která má Fisherovo rozložení, definované dvojicí stupňů volnosti (dfM, dfR) Můžeme testovat, zda ji hodnota F v našem výzkumu překračuje, tj. testovat statistickou významnost nalezených rozdílů mezi skupinami ANOVA – předpoklady F-testu nezávislost pozorování (à ANOVA pro opakovaná měření) normalita rozložení (v rámci každé skupiny) ◦narušení nevadí, pokud jsou skupiny stejně velké + mají velikost alespoň okolo 30 ◦neparametrická alternativa – Kruskal-Wallisův test homogenita rozptylů (skupiny mají stejné rozptyly) ◦Levenův test – chceme, aby byl nesignifikantní ◦s2max / s2min < 3 ◦narušení by nemělo vadit, pokud jsou skupiny stejně velké ◦při narušení lze použít Welchovo F ◦ Co jsme zatím získali oproti regresi s kategorickým prediktorem? Technicky vzato, nic moc, protože výsledný model ANOVA je stejný – lineární model predikující každému průměr jeho skupiny. Zatímco v regresi byl trik s dummy proměnnými jakýsi hack, který nám umožnil zařadit kategorické proměnné, v ANOVA jsme přímo vyšli ze srovnávání průměrů. Uvědomili jsme si tím, jak jsou rozdíly skupinových průměrů přeloženy do vysvětleného rozptylu. To znamená, že dokážeme uvažovat o kvantifikaci vlivu kategorické proměnné na nějakou metrickou ZP bez ohledu na počet kategorií. Ale F-test je pouze test H0 – po něm se chceme interpretačně vrátit k rozdílům mezi skupinami. ANOVA – SPSS Analyze à Compare Means à One-Way ANOVA Sum of Squares df Mean Square F Sig. Between Groups SSM dfM MSM Within Groups SSR dfR MSR Total SST dfM + dfR SPSS DCtimeuse Estimated minutes online each day SES M SD N 1 High 102,9 63,3 6 274 2 Medium 107,7 65,2 7 989 3 Low 96,1 64,2 3 555 Celkem 103,7 64,5 17 818 Nevážený průměr 102,2 ANOVA Máme hypotézy o konkrétních rozdílech mezi skupinami. H1: Děti z rodin s nízkým SES používají internet méně často než ostatní děti. H2: Děti z rodin se středním SES používají internet méně často než děti z rodin s vysokým SES. ANOVA – plánované kontrasty Umožňují porovnat jednotlivé skupiny v jednom kroku bez nutnosti korigovat hladinu významnosti (bez snížení síly testu) Jen když máme dopředu hypotézy Kontrastů lze provést tolik, kolik je počet skupin – 1 Každý kontrast srovnává 2 průměry ◦průměr skupiny nebo průměr více skupin dohromady ◦např. NÍZ vs. STŘ+VYS nebo STŘ vs. VYS ortogonální (nezávislé) kontrasty ◦skupina použitá v jednom srovnání není použitá v dalším neortogonální kontrasty ANOVA – plánované kontrasty Zkoumáme, zda daný kontrast (rozdíl mezi dvěma průměry) signifikantně přispívá k variabilitě vysvětlené modelem (SSM) Abychom to zjistili, jakoby překódujeme hodnoty dummy proměnných, aby odhadnuté parametry (b1, b2 atd.) odrážely požadované kontrasty [inet]i = b0 + b1[vys] + b2[str] + εi [inet]i = b0 + b1[kontrast1] + b2[kontrast2] + εi Kategorie Kontrast 1 NÍZ vs. STŘ+VYS Kontrast 2 STŘ vs. VYS Vysoký SES 1/2 -1 Střední SES 1/2 1 Nízký SES -1 0 ANOVA – plánované kontrasty Zkoumáme, zda daný kontrast (rozdíl mezi dvěma průměry) signifikantně přispívá k variabilitě vysvětlené modelem (SSM) Abychom to zjistili, jakoby překódujeme hodnoty dummy proměnných, aby odhadnuté parametry (b1, b2 atd.) odrážely požadované kontrasty [inet]i = b0 + b1[vys] + b2[str] + εi [inet]i = b0 + b1[kontrast1] + b2[kontrast2] + εi Kategorie Kontrast 1 NÍZ vs. STŘ+VYS Kontrast 2 STŘ vs. VYS Vysoký SES 1/2 -1 Střední SES 1/2 1 Nízký SES -1 0 Skupina, kterou nechceme zahrnout à 0 Srovnávané skupiny musí mít odlišná znaménka Součet pro každý kontrast musí být 0 Skupiny brané dohromady musí mít stejné číslo SPSS prezentuje kontrasty jako t-testy Pokud součet kontrastových koeficientů se stejným znaménkem = 1, pak hodnota kontrastu (je vlastně jako b) vypovídá o velikosti rozdílu průměrů srovnávaných skupin (či sloučených skupin) ANOVA – post-hoc testy Používáme, pokud nemáme dopředu jasné hypotézy Srovnávají vše se vším – každou skupinu s každou (ale neumí slučovat skupiny jako kontrasty) Mají v sobě mechanismy zohledňující zvýšené riziko chyby I. typu Z principu jsou oboustranné Je jich mnoho – liší se v několika parametrech: ◦konzervativní (ch. II. typu!) / liberální (ch. I. typu!) ◦ne/vhodné pro rozdílně velké skupiny ◦ne/vhodné pro rozdílné skupinové rozptyly ANOVA – post-hoc testy Doporučení podle A. Fielda: •stejně velké skupiny a skupinové rozptyly (ideální situace): REGWQ nebo Tukey •pokud si chceme být jistí, že P chyby I. typu nepřekročí zvolenou hladinu: Bonferroni •pokud jsou velikosti skupin trochu/hodně rozdílné: Gabriel/Hochberg GT2 •pokud pochybujeme o shodnosti skupinových rozptylů: Games-Howell One-way ANOVA – reportování F(dfM, dfR) = …, p = …, η2 nebo ω2 = … Vždy uvést deskriptivy pro každou skupinu – alespoň velikost, průměr, směrodatnou odch. Vždy dopočítat velikost účinku (interpretujeme jako R2 v lineární regresi) η2= SSM / SST ω2 = [SSM – (dfM)MSR] / [SST + MSR] (jako Adj. R2) dfM a dfR musejí být uváděny v tomto pořadí U kontrastů uvádíme: t(df) = …, p = …, d nebo r = … r = √[t2 / (t2+ df)] Neuvádíme Anova Table! Vše je v textu. One-way ANOVA - shrnutí §Výsledkově shodná s lineární regresí (lineární model) §Specifikace modelu optimalizovaná pro kategorické prediktory – faktory – tedy pro porovnávání průměrů §Zdůrazňuje myšlenku dělení rozptylu závislé proměnné na části, které lze připsat různým zdrojům rozptylu (faktoru, náhodné chybě…). „V modelu je pouze jeden faktor. Člověk je však ve skutečnosti obvykle členem více typů skupin najednou, což může mít vliv!“ „Provedeme více ANOV pro různé faktory (skupiny).“ „Tím se však vrátí známý problém s nárůstem rizika chyby I. typu. Navíc přijdeme o možnost posoudit vliv všech faktorů najednou v jednom modelu.“ „Můžeme přidat přímo do modelu další nezávislé kategorické proměnné – a spočítat tzv. faktoriální ANOVU.“ Faktoriální ANOVA ANOVA s více kategorickými nezávislými (faktory) uplatnění v experimentálních designech, kde pracujeme s několika druhy experimentální manipulace nebo kde chceme zohlednit kromě experimentální manipulace i další proměnné (např. pohlaví) uplatnění v neexperimentálních designech, kde chceme posoudit vliv více kategorických prediktorů najednou Typy faktorů (platí i pro one-way) Fixed factors ◦Všechny úrovně faktoru, o které nám jde, jsou v našem výzkumu zahrnuty ◦Obvykle máme hypotézy o rozdílech mezi konkrétními skupinami. ◦„Liší se užívání internetu mezi třemi typy SES?“ Random factors ◦úrovně faktoru, zahrnuté v našem výzkumu, představují pouze náhodný vzorek z větší populace. ◦Obvykle nás nezajímají rozdíly mezi konkrétními skupinami. ◦Do F-testu je zahrnuta tato přidaná míra nejistoty à nižší síla testu ◦„Liší se užívání internetu mezi zeměmi?“ ◦„Liší se užívání internetu podle školy, kterou adolescent navštěvuje?“ One-way ANOVA Yij = μ + α j + εij Faktoriální ANOVA Yijk = μ + α j + β k + γj x k + εijk One-way ANOVA Yij = μ + α j + εij Faktoriální ANOVA Yijk = μ + α j + β k + γj x k + εijk Vliv toho, že je člověk členem kombinace skupin j a k One-way ANOVA Yij = μ + α j + εij Faktoriální ANOVA Yijk = μ + α j + β k + γj x k + εijk Vliv toho, že je člověk členem kombinace skupin j a k > interakce One-way ANOVA Yij = μ + α j + εij Faktoriální ANOVA Yijk = μ + α j + β k + γj x k + εijk Vliv toho, že je člověk členem kombinace skupin j a k > interakce > Moderace Interakce (moderace) §V různých úrovních jednoho faktoru se rozdíly mezi průměry úrovní druhého faktoru liší (rozdíl rozdílů). §S měnící se úrovní jedné nezávislé se mění vliv druhé nezávislé na závislou proměnnou §Nezávislá proměnná nemusí mít hlavní efekt (main effect) na závislou proměnnou, ale může ji ovlivňovat tím, že ovlivňuje vliv druhé nezávislé §Při interpretaci interakcí je užitečné znázornění grafem. §Jde o totéž, co jsme měli u regrese! §V ANOVě bude interakce zahrnuta automaticky (lze změnit) Interakce (moderace) dva faktory (případ faktoriální ANOVY) ◦Zážitek s různými typy školní šikany má jiný vliv na průměrnou depresivitu u dívek a u chlapců. interakce (moderace) dva faktory (případ faktoriální ANOVY) ◦Zážitek s různými typy školní šikany má jiný vliv na průměrnou depresivitu u dívek a u chlapců. Chlapci Dívky Žádná Verbální Fyzická Dívky Chlapci Žádná Fyzická Verbální = žádná interakce interakce (moderace) dva faktory (případ faktoriální ANOVY) ◦Zážitek s různými typy školní šikany má jiný vliv na průměrnou depresivitu u dívek a u chlapců. Chlapci Dívky Žádná Verbální Fyzická Dívky Chlapci Žádná Fyzická Verbální = interakce interakce (moderace) kategorická a intervalová proměnná ◦Společně strávený čas posiluje naše sympatie pouze k členům in-group, nikoli out-group. Interakce (moderace) kategorická a intervalová proměnná ◦Společně strávený čas posiluje naše sympatie pouze k členům in-group, nikoli out-group. in-group společně strávený čas out-group žádná interakce Interakce (moderace) kategorická a intervalová proměnná ◦Společně strávený čas posiluje naše sympatie pouze k členům in-group, nikoli out-group. in-group společně strávený čas out-group interakce Interakce (moderace) dva faktory (případ faktoriální ANOVY) ◦Zážitek s různými typy školní šikany má jiný vliv na depresivitu u dívek a u chlapců. kategorická a intervalová proměnná ◦Společně strávený čas posiluje naše sympatie pouze k členům in-group, nikoli out-group. dvě intervalové proměnné ◦S rostoucím příjmem se oslabuje vztah mezi spokojeností v práci a celkovou životní spokojeností. Faktoriální ANOVA SES: Souvisí SES s frekvencí používání internetu? pohlaví: Souvisí pohlaví s frekvencí používání inetu? interakce: Má SES jinou souvislost s používáním internetu u chlapců než u dívek? Nízký SES Střední SES Vysoký SES Chlapci 153 132 114 Dívky 145 126 117 Faktoriální ANOVA - předpoklady Vše, co v případě one-way ANOVY Pro každou kombinaci faktorů by měl být zastoupený dostatečný počet případů. Lze posoudit na základě jednoduché kontingenční tabulky. Počet případů Nízký SES Střední SES Vysoký SES Kluci 26 202 114 Holky 32 205 130 Faktoriální ANOVA v SPSS Analyze à Generalized Linear Modelà Univariate… Source Type X Sum of Squares df Mean Square F Sig. Corrected Model SSM dfM MSM intercept Faktor1 SSFaktor1 dfFaktor1 MSFaktor1 Faktor2 SSFaktor2 dfFaktor2 MSFaktor2 Faktor1*Faktor2 SSinterakce F1*F2 dfInt. F1*F2 MSInt. F1*F2 Error SSR dfR MSR Total Corrected Total SST dfM+dfR celková vysvětlená variabilita (SSM) je rozsekána zvlášť pro jednotlivé faktory Každý faktor a interakce má vlastní statistiku F, proto lze posoudit, zda je signifikantním prediktorem závislé proměnné Faktoriální ANOVA – reportování Uvádíme zvlášť, jaký efekt měl každý faktor (main effect) nebo interakce faktorů: F(dfFaktor, dfR) = …, p = …, parciální η 2 … parciální η2 = SSFaktor / (SSFaktor + SSR) *parciální ω2 = + případné kontrasty a post-hoc testy jako u ANOVY *http://daniellakens.blogspot.cz/2015/06/why-you-should-use-omega-squared.html http://4.bp.blogspot.com/-9MvXcSuSgQ8/VXU7t3yO0lI/AAAAAAAACoo/J2TjkYeFBgs/s1600/omegapartialF1.png http://1.bp.blogspot.com/-99Qe57qODA4/Vaz1o5Q_cdI/AAAAAAAACrk/kaxJ_PG7VeU/s1600/eta%2Bomega.png Proč „parciální“? Protože ve výpočtu hraje roli jen faktor a reziduální rozptyl. Ostatní zdroje jsou stranou – parcializovány Vzoreček korekce je zde vlastně stejný jako u one-way anovy. Když si uvědomíme, že df*MS = SS, tak dostáváme (SSeffect –DFeffect*MSerror)/(SSeffect + (N-DFeffect)*MSerrror. Dále si uvědomíme, že DFerror jsou N-počet skupin a DFeffect je počet skupin-1, tak (N-DFeffect) je vlastně DFerror +1. Dostaneme tak (SSeffect –DFeffect*MSerror)/(SSeffect + SSerorr + MSerror). V některých situacích má smysl předpokládat, že je závislá proměnná ovlivňována nejen faktory, ale i intervalovými nezávislými proměnnými. Potřebujeme tedy model, který bude kombinovat kategorické a intervalové nezávislé proměnné. Proč zavádět intervalové nezávislé do ANOVY: snížíme množství nevysvětlené variability v modelu kontrolujeme, zda není vliv faktorů zkreslen nějakou související intervalovou proměnnou à přesnější posouzení vlivu faktorů Příklad: Používání internetu může souviset s věkem člověka. Pokud budeme tuto proměnnou kontrolovat, získáme představu o vlivu SES na frekvenci používání internetu, který je „očištěný“ od možného vlivu věku. ANCOVA (analysis of covariance) ANOVA s jednou či více nezávislými intervalovými proměnnými (tzv. kovariáty) zavádět jen kovariáty, pro které existují dobré důvody (nenacpat tam vše, co jsme měřili) dobře zvolené kovariáty à zvýšení síly testu ◦ kovariát odebere část nevysvětlené variability (SSR) závislé proměnné, čímž se lépe projeví případný vliv faktorů špatně zvolené kovariáty à snížení síly testu ◦za každý přidaný kovariát ztrácíme jeden stupeň volnosti uplatnění v experimentálních designech, kde chceme statisticky kontrolovat nežádoucí rozdíly mezi skupinami uplatnění v neexperimentálních designech, kde chceme statisticky kontrolovat intervalové prediktory a posoudit tak nezkreslený vliv kategorických prediktorů One-way ANOVA Yij = μ + α j + εij ANCOVA Yijk = μ + α j + βXij + εijk Vliv intervalové proměnné x, tj. kovariátu Vliv toho, že je člověk členem skupiny j ANCOVA - předpoklady Předpoklady ANOVY + předpoklady lineární regrese Kovariát a faktor musí být nezávislé ◦pokud nejsou, je obtížné interpetovat výsledky Kovariát musí mít ve všech skupinách stejně silný vliv na závislou proměnnou (stejný regr. koef.) ◦lze testovat zavedením interakce mezi faktorem a kovariátem do modelu (chceme, aby vyšla nesignifikantní) ANCOVA v SPSS Analyze à Generalized Linear Modelà Univariate… Source Type X Sum of Squares df Mean Square F Sig. Corrected Model SSM dfM MSM intercept Kovariát1 SSKovariát1 dfKovariát1 MSKovariát1 Faktor1 SSFaktor1 dfFaktor1 MSFaktor1 Error SSR dfR MSR Total Corrected Total SST dfM+dfR celková vysvětlená variabilita (SSM) je rozsekána zvlášť pro kovariát(y) a faktor(y) můžeme si nechat zobrazit tzv. „marginal means“ (= jaké by byly skupinové průměry, kdyby se úroveň kovariátu nelišila napříč skupinami) ANCOVA – reportování Uvádíme, jaký efekt měl každý kovariát: F(dfKovariát, dfR) = …, p = …, r = … pro jednotlivé kovariáty vždy dfKovariát = 1 r = odmocnina[t2 / (t2+ df)] A uvádíme, jaký efekt měl každý faktor: F(dfFaktor, dfR) = …, p = …, parciální η 2 = … parciální η 2 = SSFaktor / (SSFaktor + SSR) lépe ωp2 + případné kontrasty a post-hoc testy jako u ANOVY MANOVA (multivariační ANOVA) ANOVA s více závislými intervalovými proměnnými •posuzujeme vliv nezávislých proměnných na lineární kombinaci závislých proměnných •pracujeme s multivariační obdobou F •bereme v úvahu nejen (ne)vysvětlený rozptyl, ale i (ne)vysvětlenou kovarianci mezi závislými proměnnými • výhody oproti sérii více ANOV ◦kontrolujeme nárůst rizika chyby I. typu ◦lze odhalit vztah ke kombinaci závislých proměnných nevýhody ◦obtížná intepretace výsledků ◦málokdy přinese nové informace oproti ANOVĚ ◦vyžaduje splnění dalších předpokladů, které nelze jednoduše otestovat v SPSS (multivariační normalita) ◦ Úkol na seminář Data Long 2 Zajímá nás, zda a do jaké míry souvisí u žáků jejich očekávání svého nejvyššího dosaženého vzdělání (NP = ocek_vzd) a životní spokojenost (ZP=ziv_sp). §Specificky otestujte, zda se liší ti, kdo očekávají, že nedosáhnou na maturitu od těch, kdo ji očekávají získat a od těch, kdo plánují získat VŠ titul (kontrast, oneway). §Faktoriální anovou rozšiřte model i o pohlaví žáka. Otestujte u toho hypotézu, že se stoupajícím očekáváním vzdělání stoupá životní spokojenost (lineární kontrast, faktoriální anova) §Když do modelu zařadíme optimismus jako kovariát, stane se naší ZP to z životní spokojenosti, co nesouvisí s optimismem (hmm…). Jak se změní zařazením kovariátu efekt očekávaného vzdělání a pohlaví? ◦ PSY252 Statistická analýza dat v psychologii II ANALÝZA ROZPTYLU PRO OPAKOVANÁ MĚŘENÍ Opakovaná měření Vnitrosubjektové a long designy Sledujeme vývoj nějaké proměnné v čase Vystavujeme jedince několika experimentálním podmínkám a hledáme rozdíl ve změně Hledáme rozdíly v určitém znaku mezi příbuznými jedinci Výhoda: větší síla, potřeba menšího vzorku Nevýhoda: složitější statistika ID Stres EDA 101A Klid 1 101A Stres1 2 101A Stres2 3 102A Klid 4 102A Stres1 5 102A Stres2 6 … 199A Klid 5 199A Stres1 3 199A Stres2 5 ID EDA klid EDA stres1 EDA stres2 101A 1 2 3 102A 4 5 6 … 199A 5 3 5 Při opakovaných měřeních je porušen předpoklad ANOVA či lineární regrese o nezávislosti pozorování funguje podobně jako faktoriální ANOVA Nový předpoklad – sféricita (compound symmetry) – Mauchlyho test ◦Splněna pokud rozptyly jednotlivých opakovaných měření jsou stejné a kovariance mezi jednotlivými opakovanými měřeními jsou stejné ◦V longitudinálních designech obvykle problém – měření, která jsou si blízká v čase, obvykle více korelují ◦Při nesplnění – korekce (G-G, H-F) či MANOVA Méně spolehlivé post-hoc testy Dělení variability Variabilita mezi subjekty – různí lidé mají různou průměrnou hodnotu závislé Variabilita mezi měřeními (treatments) – rozdílnost průměrů měření Chybový rozptyl – náhodná variabilita kolem hodnoty závislé predikované osobou a pořadím měření (treatmentem) (Variabilita způsobená rozdílným efektem treatments na různé jedince) Příklad EDA – elektrodermální aktivita (=pocení se) 3 úrovně stresu – klid, nekonfliktní Stroop, konfliktní Stroop – v tomto pořadí „Soulad“ EDA na pravé a levé dlani ◦Koeficient laterality (-30;30) (levopotivý – pravopotivý) ◦PTI – synchronizace křivek pocení (0; 25) Psychopatologie – BDI, SAS, TSC40 Velikost účinku U kontrastů můžeme počítat Cohenovo d ◦problematická je smysluplná volba SD, kterou bychom rozdíl průměrů standardizovali ◦SD baseline měření ◦střední SD napříč měřeními Nebo můžeme spočítat r (F: s. 567) ◦velikost efektu „očištěnou“ o korelaci mezi měřeními – nadhodnocenou ◦vhodné pro usuzování na sílu testu w2 pro celý faktor F: s. 566 ◦nápověda SSTOTAL = s2*(N-1) ◦ Kontrasty a post-hoc testy Kontrasty pro vnitrosubjektový faktor jako u faktoriální anovy. ◦Transformation matrix v Options pro kontrolu Post-hoc testy pro vnitrosubjektový a mezisubjektový faktor na jiných místech. ◦Field: Vezměte na vědomí dopad odchylek od sféricity na platnost post-hoc testů Rozšíření Faktoriální vnitrosubjektová/repeated Anova – více než 1 vnitrosubjektový faktor Mixed ANOVA - kombinace vnitrosubjektových a mezisubjektových faktorů (tj. repeated+normální ANOVA) Nevýhody Repeated ANOVA Požadavek sféricity - při výrazném nesplnění, či jiném očekávání je na místě hledat jiné modely Neumí se vypořádat s chybějícími hodnotami Flexibilní řešení obou problémů nabízí multi-level lineární modely (v SPSS Analyze ->Mixed models)