ANOVA
6. 11. 2013
Jan Šerek
PSY252 Statistická analýza dat II

Program dnešní přednášky
• jednofaktorová (one-way) ANOVA
• faktoriální (two…-way) ANOVA
• ANCOVA (ANOVA s kovariáty)
• MANOVA (ANOVA s více závislými)

ANOVA (analysis of variance)
•Liší se 2 skupiny v průměrné hodnotě nějaké proměnné? à t-test
•Liší se 3 (a více) skupiny v průměrné hodnotě nějaké proměnné? à ANOVA
–„Liší se Češi, Romové a Ukrajinci ve své důvěře k českým institucím?“
–„Liší se průměrná tepová frekvence participantů, kteří byli vystavení podnětu A, podnětu B a
žádnému podnětu (kontrolní skupina)?“

ANOVA (analysis of variance)
•Liší se 2 skupiny v průměrné hodnotě nějaké proměnné? à t-test
•Liší se 3 (a více) skupiny v průměrné hodnotě nějaké proměnné? à ANOVA
–„Liší se Češi, Romové a Ukrajinci ve své důvěře k českým institucím?“
–„Liší se průměrná tepová frekvence participantů, kteří byli vystavení podnětu A, podnětu B a
žádnému podnětu (kontrolní skupina)?“
1 nezávislá kategorická à 1 závislá intervalová

ANOVA (analysis of variance)
•Liší se 2 skupiny v průměrné hodnotě nějaké proměnné? à t-test
•Liší se 3 (a více) skupiny v průměrné hodnotě nějaké proměnné? à ANOVA
–„Liší se Češi, Romové a Ukrajinci ve své důvěře k českým institucím?“
–„Liší se průměrná tepová frekvence participantů, kteří byli vystavení podnětu A, podnětu B a
žádnému podnětu (kontrolní skupina)?“
1 nezávislá kategorická à 1 závislá intervalová
v jazyku ANOVY se tato nezávislá kategorická proměnná nazývá faktor, který má určité úrovně

ANOVA
•ANOVU v zásadě provádíme ve 2 krocích:
•KROK 1: Existuje mezi skupinami nějaká odlišnost?
–spočítáme statistiku F a testujeme, zda překračuje kritickou hodnotu
•Pokud NE à konec
•Pokud ANO à KROK 2: Mezi jakými skupinami konkrétně tato odlišnost existuje?
–máme o tom hypotézy à plánované kontrasty
–nemáme o tom hypotézy à post-hoc testy
•

ANOVA jako regrese
Yi = μ + εi
Hodnota závislé proměnné člověka i
Celkový průměr
Nevysvětlená individuální variabilita

ANOVA jako regrese
Yi = μ + εi
Hodnota závislé proměnné člověka i
Celkový průměr
Nevysvětlená individuální variabilita
Yij = μ + α j + εij
Vliv toho, že je člověk členem skupiny j

ANOVA jako regrese
Yi = μ + εi
Hodnota závislé proměnné člověka i
Celkový průměr
Nevysvětlená individuální variabilita
Yij = μ + α j + εij
Vliv toho, že je člověk členem skupiny j
Podstata ANOVY
Jak dobře je závislá proměnná vysvětlena modelem, který předpokládá odlišnost skupin (α ≠ 0)?
Nepostačí nám stejně dobře model, který předpokládá, že se skupiny neliší?

ANOVA jako regrese
Souvisí socioekonomický status rodiny s tím, jak často dítě používá internet?
Nezávislá kategorická proměnná: socioekonomický status
3 hodnoty: nízký, střední, vysoký
Závislá intervalová proměnná: frekvence používání internetu
Liší se děti z rodin s nízkým, středním a vysokým SES v tom, jak často používají internet?

ANOVA jako regrese
[inter]i = [průměrný inter] + εi
[inter]i = [průměrný inter] + b[ses] + εi

ANOVA jako regrese
[inter]i = [průměrný inter] + εi
[inter]i = [průměrný inter] + b[ses] + εi
Každá kategorická proměnná o k hodnotách (úrovních) může být vyjádřena souborem k-1 binárních dummy
proměnných.
3 typy SESà 2 binární proměnné vys a str
vys = 1 & str = 0 à vysoký SES
vys = 0 & str = 1 à střední SES
vys = 0 & str = 0 à nízký SES

ANOVA jako regrese
[inter]i = [průměrný inter] + εi
[inter]i = [průměrný inter] + b[ses] + εi
Každá kategorická proměnná o k hodnotách (úrovních) může být vyjádřena souborem k-1 binárních dummy
proměnných.
3 typy SESà 2 binární proměnné vys a str
vys = 1 & str = 0 à vysoký SES
vys = 0 & str = 1 à střední SES
vys = 0 & str = 0 à nízký SES
[inter]i =  b0 + b1[vys] + b2[str] + εi

ANOVA jako regrese
[inter]i = [průměrný inter] + εi
[inter]i = [průměrný inter] + b[ses] + εi
Každá kategorická proměnná o k hodnotách (úrovních) může být vyjádřena souborem k-1 binárních dummy
proměnných.
3 typy SESà 2 binární proměnné vys a str
vys = 1 & str = 0 à vysoký SES
vys = 0 & str = 1 à střední SES
vys = 0 & str = 0 à nízký SES
[inter]i =  b0 + b1[vys] + b2[str] + εi
Průměrná  frekvence dětí z rodin s nízkým SES
O kolik se liší průměrná frekvence dětí z rodin s vysokým SES
O kolik se liší průměrná frekvence dětí z rodin se středním SES

ANOVA jako regrese
[inter]i =  b0 + b1[vys] + b2[str] + εi
Jestliže b1 = 0 a b2 = 0, znamená to, že SES nemá žádný vliv a všechny skupiny mají stejnou
průměrnou frekvenci.
Potom by nám postačil základní model predikující frekvenci pouze z celkové průměrné frekvence a
nevysvětlitelné individuální variability.
Vysvětlí nám model předpokládající nenulové b1 a/nebo b2 něco navíc?

ANOVA – statistika F
•SSM – kolik variability závislé proměnné dokáže vysvětlit model, který předpokládá odlišnost
skupin (tj. že záleží na členství ve skupině)
SSM = ∑ velikost skupiny j * (průměr skupiny j – celkový průměr)2
Mean squares: MSM = SSM / dfM
• dfM = (počet skupin – 1)
•
•SSR – kolik variability závislé proměnné zůstává nevysvětleno tímto modelem
SSR = ∑ (hodnota člověka i ze skupiny j – průměr skupiny j)2
Mean squares: MSR = SSR / dfR
• dfR = (celkový počet lidí – počet skupin)
•
•
•
Model sum of squares
Resudial sum of squares

ANOVA – statistika F
•F = MSM / MSR
•poměr toho, co model vysvětlit dokáže, ku tomu, co vysvětlit nedokáže
•čím vyšší F, tím více záleží na rozdělení lidí do jednotlivých skupin, tj. tím více se skupiny od
sebe liší v závislé proměnné
•jde o výběrovou statistiku, která má specifické rozložení, definované dvojicí stupňů volnosti
(dfM, dfR)
•můžeme určit kritickou hodnotu (na určité hladině významnosti) a testovat, zda ji hodnota F v
našem  výzkumu překračuje, tj. testovat statistickou významnost nalezených rozdílů mezi skupinami
•
•
•
•
•

ANOVA – předpoklady
•nezávislost pozorování (à ANOVA pro opakovaná měření)
•normalita rozložení (v rámci každé skupiny)
–narušení nevadí, pokud jsou skupiny stejně velké + mají velikost alespoň okolo 30
–neparametrická alternativa – Kruskal-Wallisův test
•homogenita rozptylů (skupiny mají stejné rozptyly)
–Levenův test – chceme, aby byl nesignifikantní
–s2max / s2min < 3
–narušení by nemělo vadit, pokud jsou skupiny stejně velké
–při narušení lze použít Welchovo F
–
•
•
•

ANOVA – SPSS
•Analyze à Compare Means à One-Way ANOVA
•
•
•
•
•
Sum of Squares
df
Mean Square
F
Sig.
Between Groups
SSM
dfM
MSM
Within Groups
SSR
dfR
MSR
Total
SST
dfM + dfR

ANOVA
•Máme hypotézy o konkrétních rozdílech mezi skupinami.
•
•H1: Děti z rodin s vysokým SES používají internet častěji než ostatní děti.
•H2: Děti z rodin se středním SES používají internet častěji než děti z rodin s nízkým SES.
•
•
•
•
•

ANOVA – plánované kontrasty
•umožňují porovnat jednotlivé skupiny v jednom kroku bez nutnosti korigovat hladinu významnosti (a
snižovat tak sílu testu)
•jen když máme dopředu hypotézy
•kontrastů lze provést tolik, kolik je počet skupin – 1
•každý kontrast srovnává 2 průměry
–průměr skupiny nebo průměr více skupin dohromady
–např. VYS vs. STŘ+NÍZ nebo STŘ vs. NÍZ
•ortogonální (nezávislé) kontrasty
–skupina použitá v jednom srovnání není použitá v dalším
•neortogonální kontrasty
•
•

ANOVA – plánované kontrasty
•zkoumáme, zda daný kontrast (rozdíl mezi dvěma průměry) signifikantně přispívá k variabilitě
vysvětlené modelem (SSM)
•abychom to zjistili, jakoby překódujeme hodnoty dummy proměnných, aby odhadnuté parametry (b1,
b2 atd.) odrážely požadované kontrasty
•
•[inter]i =  b0 + b1[vys] + b2[str] + εi
•[inter]i =  b0 + b1[kontrast1] + b2[kontrast2] + εi
Kategorie
Kontrast 1
VYS vs. STŘ+NÍZ
Kontrast 2
STŘ vs. NÍZ
Vysoký SES
-2
0
Střední SES
1
1
Nízký SES
1
-1

ANOVA – plánované kontrasty
•zkoumáme, zda daný kontrast (rozdíl mezi dvěma průměry) signifikantně přispívá k variabilitě
vysvětlené modelem (SSM)
•abychom to zjistili, jakoby překódujeme hodnoty dummy proměnných, aby odhadnuté parametry (b1,
b2 atd.) odrážely požadované kontrasty
•
•[inter]i =  b0 + b1[vys] + b2[str] + εi
•[inter]i =  b0 + b1[kontrast1] + b2[kontrast2] + εi
Kategorie
Kontrast 1
VYS vs. STŘ+NÍZ
Kontrast 2
STŘ vs. NÍZ
Vysoký SES
-2
0
Střední SES
1
1
Nízký SES
1
-1
Skupina, kterou nechceme zahrnout à 0
Srovnávané skupiny musí mít odlišná znaménka
Součet pro každý kontrast musí být 0
Skupiny  brané dohromady musí mít stejné číslo

ANOVA – post-hoc testy
•používáme, pokud nemáme dopředu jasné hypotézy
•srovnávají vše se vším – každou skupinu s každou
•mají v sobě mechanismy zohledňující zvýšené riziko chyby I. typu
•z principu jsou oboustranné
•je jich mnoho – liší se v několika parametrech:
–konzervativní (ch. II. typu!) / liberální (ch. I. typu!)
–ne/vhodné pro rozdílně velké skupiny
–ne/vhodné pro rozdílné skupinové rozptyly

ANOVA – post-hoc testy
•Doporučení podle A. Fielda:
•stejně velké skupiny a skupinové rozptyly (ideální situace): REGWQ nebo Tukey
•pokud si chceme být jistí, že neuděláme chybu I. typu: Bonferroni
•pokud jsou velikosti skupin trochu/hodně rozdílné: Gabriel/Hochberg GT2
•pokud pochybujeme o shodnosti skupinových rozptylů: Games-Howell

ANOVA – reportování
•F(dfM, dfR) = …, p = …, η 2 nebo ω2 = …
•
•vždy uvádět deskriptivy pro každou skupinu – alespoň velikost, průměr, směrodatnou odch.
•vždy dopočítat velikost účinku (interpretujeme jako R2 v lineární regresi)
η 2= SSM / SST
ω2 = [SSM – (dfM)MSR] / [SST + MSR]
•dfM a dfR musejí být uváděny v tomto pořadí
•
•U kontrastů uvádíme: t(df) = …, p = …, d nebo r = …
•r = odmocnina[t2 / (t2+ df)]
•
•
•

•„V modelu je pouze jeden faktor. Člověk je však ve skutečnosti obvykle členem více typů skupin
najednou, což může mít vliv!“
•„Provedeme více ANOV pro různé faktory (skupiny).“
•„Tím se však vrátí známý problém s nárůstem rizika chyby I. typu. Navíc přijdeme o možnost
posoudit vliv všech faktorů najednou v jednom modelu.“
•„Můžeme přidat přímo do modelu další nezávislé kategorické proměnné – a spočítat tzv. faktoriální
ANOVU.“

Faktoriální ANOVA
•ANOVA s více kategorickými nezávislými (faktory)
•uplatnění v experimentálních designech, kde pracujeme s několika druhy experimentální manipulace
nebo kde chceme zohlednit kromě experimentální manipulace i další proměnné (např. pohlaví)
•uplatnění v neexperimentálních designech, kde chceme posoudit vliv více kategorických prediktorů
najednou
•

Typy faktorů
ve vícefaktoriálních designech
•Fixed factors
–všechny úrovně faktoru, o které nám jde, jsou v našem výzkumu zahrnuty
–„Liší se užívání internetu mezi třemi typy SES?“
–„Liší se užívání internetu podle pohlaví?“
•Random factors
–úrovně faktoru, zahrnuté v našem výzkumu, představují pouze náhodný vzorek z větší populace
–„Liší se užívání internetu mezi zeměmi?“
–„Liší se užívání internetu podle školy, kterou adolescent navštěvuje?“
•

•One-way ANOVA
• Yij = μ + α j + εij
•Faktoriální ANOVA
• Yijk = μ + α j + β k + γj x k + εijk

•One-way ANOVA
• Yij = μ + α j + εij
•Faktoriální ANOVA
• Yijk = μ + α j + β k + γj x k + εijk
Vliv toho, že je člověk členem kombinace skupin  j a k

•One-way ANOVA
• Yij = μ + α j + εij
•Faktoriální ANOVA
• Yijk = μ + α j + β k + γj x k + εijk
Vliv toho, že je člověk členem kombinace skupin  j a k
>
Interakce

•One-way ANOVA
• Yij = μ + α j + εij
•Faktoriální ANOVA
• Yijk = μ + α j + β k + γj x k + εijk
Vliv toho, že je člověk členem kombinace skupin  j a k
>
Interakce
>
Moderace

Interakce (moderace)
•situace, kdy vliv dvou (či více) nezávislých proměnných na závislou proměnnou není pouhým součtem
jejich jednotlivých vlivů
•s měnící se hladinou jedné nezávislé se mění vliv druhé nezávislé na závislou proměnnou
•nezávislá proměnná nemusí mít žádný přímý vliv (main effect) na závislou proměnnou, ale může ji
ovlivňovat tím, že ovlivňuje vliv druhé nezávislé
•při interpretaci interakcí je obvykle velmi užitečné znázornění formou grafu

Interakce (moderace)
•dvě kategorické proměnné (případ faktoriální ANOVY)
–Zážitek s různými typy školní šikany má jiný vliv na depresivitu u dívek a u chlapců.

Interakce (moderace)
•dvě kategorické proměnné (případ faktoriální ANOVY)
–Zážitek s různými typy školní šikany má jiný vliv na depresivitu u dívek a u chlapců.
Chlapci Dívky
Žádná Verbální       Fyzická
Dívky
Chlapci
Žádná
Fyzická
Verbální
=
žádná interakce

Interakce (moderace)
•dvě kategorické proměnné (případ faktoriální ANOVY)
–Zážitek s různými typy školní šikany má jiný vliv na depresivitu u dívek a u chlapců.
Chlapci Dívky
Žádná Verbální       Fyzická
Dívky
Chlapci
Žádná
Fyzická
Verbální
=
interakce

Interakce (moderace)
•dvě kategorické proměnné (případ faktoriální ANOVY)
–Zážitek s různými typy školní šikany má jiný vliv na depresivitu u dívek a u chlapců.
•kategorická a intervalová proměnná
–Společně strávený čas posiluje naše sympatie pouze k členům in-group, nikoli out-group.

Interakce (moderace)
•dvě kategorické proměnné (případ faktoriální ANOVY)
–Zážitek s různými typy školní šikany má jiný vliv na depresivitu u dívek a u chlapců.
•kategorická a intervalová proměnná
–Společně strávený čas posiluje naše sympatie pouze k členům in-group, nikoli out-group.
in-group
společně strávený čas
out-group
žádná interakce

Interakce (moderace)
•dvě kategorické proměnné (případ faktoriální ANOVY)
–Zážitek s různými typy školní šikany má jiný vliv na depresivitu u dívek a u chlapců.
•kategorická a intervalová proměnná
–Společně strávený čas posiluje naše sympatie pouze k členům in-group, nikoli out-group.
in-group
společně strávený čas
out-group
interakce

Interakce (moderace)
•dvě kategorické proměnné (případ faktoriální ANOVY)
–Zážitek s různými typy školní šikany má jiný vliv na depresivitu u dívek a u chlapců.
•kategorická a intervalová proměnná
–Společně strávený čas posiluje naše sympatie pouze k členům in-group, nikoli out-group.
•dvě intervalové proměnné
–S rostoucím příjmem se oslabuje vztah mezi spokojeností v práci a celkovou životní spokojeností.

Faktoriální ANOVA
•SES: Souvisí SES s frekvencí používání internetu?
•pohlaví: Souvisí pohlaví s frekvencí používání internetu?
•interakce: Má SES jinou souvislost s používáním internetu u chlapců než u dívek?
•
•
Nízký SES
Střední SES
Vysoký SES
Chlapci
Dívky

Faktoriální ANOVA - předpoklady
•Vše, co v případě one-way ANOVY
•
•Pro každou kombinaci faktorů by měl být zastoupený dostatečný počet případů.
•Lze posoudit na základě jednoduché kontingenční tabulky.
•Případnou nevyváženost lze částečně zohlednit zvoleným typem analýzy.
Počet případů
Nízký SES
Střední SES
Vysoký SES
Kluci
60
8
34
Holky
2
72
35

Faktoriální ANOVA v SPSS
•Analyze à Generalized Linear Modelà Univariate…
Source
Type X Sum of Squares
df
Mean Square
F
Sig.
Corrected Model
SSM
dfM
MSM
Intercept
Faktor1
SSFaktor1
dfFaktor1
MSFaktor1
Faktor2
SSFaktor2
dfFaktor2
MSFaktor2
Faktor1*Faktor2
SSInterakce F1*F2
dfInt. F1*F2
MSInt. F1*F2
Error
SSR
dfR
MSR
Total
Corrected Total
SST
dfM+dfR
celková vysvětlená variabilita (SSM) je rozsekána zvlášť pro jednotlivé faktory
Každý faktor a interakce má vlastní statistiku F, proto lze posoudit, zda je signifikantním
prediktorem závislé proměnné

MANOVA
hod_mat BY grade(0 1) organizace (1 3)
/DESIGN = grade WITHIN organizace(1) grade WITHIN organizace(2) grade WITHIN organizace(3)
/PRINT
CELLINFO
SIGINF(UNIV MULT AVERF HF GG).

Faktoriální ANOVA – reportování
•Uvádíme zvlášť, jaký efekt měl každý faktor (main effect) nebo interakce faktorů:
•F(dfFaktor, dfR) = …, p = …, parciální η 2 …
•parciální η2 = SSFaktor / (SSFaktor + SSR)
•
•+ případné kontrasty a post-hoc testy jako u ANOVY

•V některých situacích má smysl předpokládat, že je závislá proměnná ovlivňována nejen faktory, ale
i intervalovými nezávislými proměnnými. Potřebujeme tedy model, který bude kombinovat kategorické a
intervalové nezávislé proměnné.
•
•Proč zavádět intervalové nezávislé do ANOVY:
•snížíme množství nevysvětlené variability v modelu
•kontrolujeme, zda není vliv faktorů zkreslen nějakou související intervalovou proměnnou
à přesnější posouzení vlivu faktorů
•Příklad: Používání internetu může souviset s věkem člověka. Pokud budeme tuto proměnnou
kontrolovat, získáme představu o vlivu SES na frekvenci používání internetu, který je „očištěný“ od
možného vlivu věku.
•
•
•
•
•
•
•
•

ANCOVA (analysis of covariance)
•ANOVA s jednou či více nezávislými intervalovými proměnnými (tzv. kovariáty)
•zavádět jen kovariáty, pro které existují dobré  důvody (nenacpat tam vše, co jsme měřili)
•dobře zvolené kovariáty à zvýšení síly testu
– kovariát odebere část nevysvětlené variability závislé proměnné, čímž se lépe projeví případný
vliv faktorů
•špatně zvolené kovariáty à snížení síly testu
–za každý přidaný kovariát ztrácíme jeden stupeň volnosti
•uplatnění v experimentálních designech, kde chceme statisticky kontrolovat nežádoucí rozdíly mezi
skupinami
•uplatnění v neexperimentálních designech, kde chceme statisticky kontrolovat intervalové
prediktory a posoudit tak nezkreslený vliv kategorických prediktorů

•One-way ANOVA
• Yij = μ + α j + εij
•ANCOVA
• Yijk = μ + α j + βXij + εijk
Vliv toho, že je člověk členem skupiny j

ANCOVA - předpoklady
•předpoklady ANOVY + předpoklady lineární regrese
•kovariát a skupinová příslušnost musí být nezávislé
–pokud nejsou, je obtížné interpretovat výsledky
–obdoba požadavku nekorelovaných prediktorů u vícenásobné lineární regrese
–lze testovat dopředu jednoduchou ANOVOU (přičemž chceme, aby vyšla nesignifikantní)
•kovariát musí mít ve všech skupinách stejně silný vliv na závislou proměnnou
–lze testovat zavedením interakce do modelu (přičemž chceme, aby vyšla nesignifikantní)

ANCOVA v SPSS
•Analyze à Generalized Linear Modelà Univariate…
Source
Type X Sum of Squares
df
Mean Square
F
Sig.
Corrected Model
SSM
dfM
MSM
Intercept
Kovariát1
SSKovariát1
dfKovariát1
MSKovariát1
Faktor1
SSFaktor1
dfFaktor1
MSFaktor1
Error
SSR
dfR
MSR
Total
Corrected Total
SST
dfM+dfR
celková vysvětlená variabilita (SSM) je rozsekána zvlášť pro kovariát(y) a faktor(y)
můžeme si nechat zobrazit upravené skupinové průměry

ANCOVA – reportování
•Uvádíme, jaký efekt měl každý kovariát:
•F(dfKovariát, dfR) = …, p = …, r = …
•pro jednotlivé kovariáty vždy dfKovariát = 1
•r = odmocnina[t2 / (t2+ df)]
•
•A uvádíme, jaký efekt měl každý faktor:
•F(dfFaktor, dfR) = …, p = …, parciální η 2 = …
•parciální η 2 = SSFaktor / (SSFaktor + SSR)
•
•+ případné kontrasty a post-hoc testy jako u ANOVY
•
•
•

MANOVA (multivariační ANOVA)
•ANOVA s více závislými intervalovými proměnnými
•posuzujeme vliv nezávislých proměnných na lineární kombinaci závislých proměnných
•pracujeme s multivariační obdobou F
•bereme v úvahu nejen (ne)vysvětlený rozptyl, ale i (ne)vysvětlenou kovarianci mezi závislými
proměnnými
•
•výhody oproti sérii více ANOV
–kontrolujeme nárůst rizika chyby I. typu
–lze odhalit vztah ke kombinaci závislých proměnných
•nevýhody
–obtížná interpretace výsledků
–málokdy přinese nové informace oproti ANOVĚ
–vyžaduje splnění dalších předpokladů, které nelze jednoduše otestovat v SPSS (multivariační
normalita)
–
•
•

Úkol na seminář
•Otestujte hypotézy předpokládající nějaké kontrasty mezi 3 či více skupinami (one-way ANOVA s
následnými kontrasty)
• +
•Otestujte hypotézu předpokládající interakci mezi 2 faktory (faktoriální ANOVA)
–zde nemusíte dopočítávat kontrasty
–můžete (ale nemusíte) do modelu zahrnout i nějaký kovariát
–při interpretaci se neomezujte pouze na konstatování, že ne/byl nalezen signifikantní interakční
efekt, ale rovněž popište (nejlépe na základě grafů), v čem konkrétně tato interakce spočívá
–