Statistické metody a zpracování dat
V. Analýza rozptylu (ANOVA)
Petr Dobrovolný
K čemu to je (příklad)
Studenti se připravovali na test ze statistiky třemi různými metodami.
Existuje významný rozdíl mezi metodami přípravy?
Existuje rozdíl
K čemu to je?
* Porovnávání libovolného počtu průměrů (více než dvou).
* Jeden či více tzv. faktorů dělí vyšetřované znaky do skupin.
* Testujeme, zda existuje významný rozdíl v průměrech skupin
Příklady:
* Vliv průmyslové lokality na koncentraci přízemního ozónu
v ovzduší. Pro čtyři lokality jsme získali několik vzorků měření
koncentrace přízemního ozónu. Máme zjistit, zda má lokalita
významný vliv na koncentraci ozónu. Existuje lokalita, která
se významně liší od ostatních?
* Existuje významný rozdíl v názoru různých skupin
obyvatelstva na problém polohy brněnského nádraží?
Obecný problém, který řeší ANOVA
Máme m nezávislých náhodných výběrů (m>2, j=1,2,....m) vyšetřované
proměnné x. Rozsahy výběrů nj nemusí být stejné. V každém výběru je
znám průměr a rozptyl sj
2.
Výběry vzniknou obvykle tak, že základní soubor rozdělíme podle
určitého znaku (FAKTORU) do m skupin a v každé z nich pak
vybereme ni prvků.
Prvek xij označuje i-té pozorování v j-tém výběru
jx
Základní druhy ANOVA
* ANOVA při jednoduchém třídění (jednofaktorová) ­
sledujeme efekt jednoho faktoru na závisle proměnnou
* ANOVA vícefaktorová ­ při dvojnásobném třídění, ...
* ANOVA při vyváženém třídění (stejný počet prvků ve
skupinách) a při nevyváženém třídění
* ANOVA s opakováním měření
* Neparametrická ANOVA
1) Museli bychom provádět velký počet testování (pro m skupin m.(m-1)/2
testů
2) Opakovaným porovnáváním významnosti bychom neoprávněně
zvyšovali pravděpodobnost chyby prvního druhu.
U každého testu je řekněme 5% možnost chybného pozitivního výsledku
(tedy chyby prvního druhu - hladina významnosti  = 0,05) pokud neexistuje
žádný rozdíl.
Máme-li tři skupiny a provedeme všechny tři testy, pravděpodobnost, že
dostaneme nejméně jeden chybný pozitivní výsledek (chybu prvního druhu)
je větší než 5 %.
S rostoucím počtem provedených testů roste pravděpodobnost, že alespoň
jeden výsledek bude statisticky významný, přestože ve skutečnosti platí
nulová hypotéza.
Abychom se tomuto problému vyhnuli, použijeme k testování hypotézy
metodu analýzy rozptylu a testů, které řeší tzv. mnohonásobná porovnávání
(viz. dále).
(poznámka)Dva důvody, proč nemůžeme analýzu provést
postupným testováním jednotlivých dvojic
(např. t-testem):
Obecný model analýzy rozptylu
ANOVA je založena na předpokladu, že každý z m výběrů pochází z
populace s normálním rozdělením se stejnou směrodatnou odchylkou.
Zajímá nás, zda střední hodnoty (průměry) skupin jsou všechny
shodné, nebo zda se navzájem liší.
xij je i-té pozorování z j-té skupiny.
Každé pozorované x je funkcí nějaké celkové průměrné hodnoty ,
skupinového efektu i a blíže nespecifikované náhodné chyby ij .
ijiijx  ++=
Model ANOVA - variabilita uvnitř skupin
hodnoty faktoru
Model ANOVA - variabilita mezi skupinami
celkový průměr
skupinové průměry
skupinové efekty
hodnoty faktoru
Zdroje variability v modelu ANOVA
celkový průměr ()
skupinové průměry
variabilita uvnitř skupiny ()
celková variabilita
variabilita mezi skupinami ()
xij
hodnoty faktoru
Obecný model analýzy rozptylu
Z předchozího plyne, že střední hodnota j-té skupiny je rovna:
V analýze rozptylu chceme zjistit, zda jsou skupinové efekty důležité, tj.
zda existuje nějaký rozdíl mezi průměry jednotlivých skupin.
Nulová hypotéza H0: všechny výběry pocházejí z jednoho
základního souboru s normálním rozložením (jinými slovy ­ faktor
neovlivňuje závisle proměnnou)
H0: 1 = 2 = ...= i = ....= m = 
nebo:
H0: 1 = 2 =...= i = ....= m = 0
Cílem ANOVA je zjistit, zda se jednotlivé dílčí průměry m mezi sebou a
tedy i od celkového průměru  liší pouze v mezích náhodného kolísání.
jj  +=
Obecný výpočet ANOVA
Podstatou výpočtů při ANOVA je rozdělení celkového rozptylu (ST)
závisle proměnné do dvou částí, na variabilitu uvnitř skupin (Se) a
variabilitu mezi skupinami (SA)
Variabilita uvnitř skupin popisuje, jak se každá hodnota ve skupině liší
od skupinového průměru.
Variabilita mezi skupinami je funkcí, která ukazuje, jak se navzájem
liší skupinové průměry. Zahrnuje porovnání všech k skupinových
průměrů s tzv. celkovým průměrem.
Pokud neexistuje žádný rozdíl mezi skupinovými průměry, pak
variabilita mezi skupinami i variabilita v rámci skupiny popisují stejný jev
- stejný populační rozptyl.
Toto porovnání variability v rámci skupiny a mezi skupinami se provádí
pomocí F testu.
ST = SA + Se
Obecný výpočet ANOVA
eA
j i
jij
j
jj
j i
ijT SSxxxxnxxS +=-+-=-=  222
)()()(
Zkoumáme, že vypočtené průměry se liší jen v mezích náhodného
kolísání
jx
x
Odchylku konkrétního měření xij od celkového průměru lze zapsat:
)()( xxxxxx jjijij -+-=odhad
parametru j - tedy efekt kategorie j
Umocníme a sečteme obě strany rovnice pro všechna měření:
Obecný výpočet ANOVA
Jednotlivé složky celkového rozptylu mají tento význam:
ST ­ celkový součet čtverců odchylek všech měření od celkového
průměru
SA - vážený součet druhých mocnin rozdílů každého skupinového
průměru a celkového průměru
Se - součet druhých mocnin rozdílů hodnot a příslušného skupinového
průměru
Každé složce rozptylu přísluší jistý počet stupňů volnosti  :
T pro ST ­ počet pozorování ­ 1: (n-1)
A pro SA - počet skupin ­ 1: (m-1)
e pro Se ­ počet pozorování ­ počet skupin: (n ­ m)
Obecný výpočet ANOVA
A
A
A
S
MS

=
Charakteristiky
e
e
e
S
MS

=
představují součty čtverců dělené odpovídajícím počtem stupňů volnosti.
Tyto veličiny jsou mírou variability pro jednotlivé zdroje rozptylu a ve
statistických programech jsou označovány anglicky jako Mean Square
(průměrné čtverce).
Testovací kritérium se potom vypočte jako podíl míry variability mezi
skupinami a míry variability uvnitř skupin podle následujícího vztahu:
( )
( ) ee
AA
S
S
skupinuvnitřMS
skupinamimeziMS
F


/
/
_
_
==
Typická tabulka výstupu z ANOVA
Výstupy ze statistického programu ještě nabízejí p hodnotu příslušející
vypočtené hodnotě testovacího kritéria
Interpretace testovacího kritéria
* V případě platnosti H0 (všechny populační průměry shodné) bude čitatel
F statistiky (zhruba) stejný jako jmenovatel (tzv. reziduální rozptyl)
* Pak by tedy hodnota F statistiky byla přibližně rovna jedné. Ve
statistických tabulkách zjistíme, zda hodnota F je významně větší než 1
* To by ukazovalo, že MS mezi skupinami je významně větší než MS
uvnitř skupin, a tedy že se průměry skupin liší.
* (Pokud by F statistika byla menší než 1, pak to znamená, že variabilita
mezi skupinami může být dokonce menší než uvnitř skupin, a tedy tím
spíše není důvod zamítat nulovou hypotézu.)
* K výpočtu příslušných kritických hodnot i dosažených hladin významnosti
lze využít i různé statistické programy.
Příklad ANOVA při jednoduchém třídění
Zjistěte, zda se na hladině významnosti =0,05 liší se koncentrace
znečišťující látky (ppm) v ovzduší měřené na třech lokalitách?
Příklad
Vizuální analýza jednotlivých skupin za pomoci vhodného grafu a
porovnání úrovně a variability skupin.
Příklad
Protože p = 0,0148, což je méně než  = 0,05, můžeme zamítnout nulovou
hypotézu a učinit závěr, že průměrná koncentrace znečišťující látky není ve
všech třech skupinách stejná.
Výpočet v EXCELU:
Nástroje ­ Analýza dat ­ ANOVA jeden faktor
Příklad ANOVA v programu Statistica ­ část I.
Statistika ­ ANOVA ­ jednofaktorová ANOVA ­ Rychlé nastavení
4) testovací
kritérium
5) odpovídající
p-hodnota
1) uspořádání
vstupních dat
2) zadání
vstupních dat
pro ANOVA
3) výsledná
tabulka ANOVA
Dva problémy výsledu ANOVA:
1) Zda jsou výsledky ANOVA vůbec použitelné - musíme ověřit, že
náš model splňuje předpoklady
2) Výsledek ANOVA nám neříká, které průměry se navzájem liší.
Můžeme se podívat na skupinové průměry a zjistit, že určitá skupina
má vyšší průměr než ostatní skupiny.
V tuto chvíli ale nemůžeme říci, že tento průměr je významně vyšší.
Musíme data analyzovat dále použitím metod mnohonásobného
porovnávání, abychom zjistili, které průměry se navzájem
významně liší.
Předpoklady ANOVA
a) Všechna měření musí být vzájemně nezávislá uvnitř skupin i mezi
skupinami
b) Vyšetřovaný znak, jehož průměry chceme porovnávat musí mít
normální rozdělení
c) Rozptyly jednotlivých výběrů se mezi sebou statisticky neliší (což
ověřujeme testy (Bartlettův test nebo tzv. Hartleyův test (Fmax test) pokud
mají všechny výběry stejný rozsah.)
Aby byly výsledky analýzy rozptylu správné, musí být splněny
následující předpoklady:
Ad c) předpoklad rovnosti rozptylů
Zkoumáme, zda je splněno:
3
min
max

j
j
s
s
Hodnoty sj jsou směrodatné odchylky měření v jednotlivých skupinách
Ad b) předpoklad normálního rozdělení
Ověřování lze provádět graficky analýzou tzv. reziduálních (zbytkových)
hodnot
Hodnoty pozorovaných veličin můžeme vyjádřit takto:
ijiijx  ++=
ij jsou náhodné navzájem nezávislé chybové složky (rezidua)
* Model platí pro základní soubor
* Skutečné parametry však můžeme pouze odhadovat z výběrových
souborů.
* V následujícím příkladu index o u symbolu parametru znamená, že se
jedná o odhad.
Ověřování normality
Příklad:
o ­ celkový průměr = 282,7
o1 = průměr první skupiny - celkový průměr = 316,6 ­ 282,7 = 33,9
o2 = průměr druhé skupiny - celkový průměr = 256,4 ­ 282,7 = -26,3
o3 = průměr třetí skupiny - celkový průměr = -7,1
oj - odhady skupinových efektů - tedy toho, jak se každý průměr liší od
celkového průměru.
Předpovídaná hodnota pro pozorování z j-té skupiny je průměr j-té
skupiny:
oi = o + oi
Naším modelem ANOVA jsme tedy vypočetli, že například průměrná
hodnota koncentrace měřené látky se v první skupině rovná 282,7 +
33,9 = 316,6.
Ověřování normality
Rezidua (zbytkové hodnoty) pro každé pozorování spočteme jako
rozdíl mezi pozorovanou hodnotou a předpovídanou hodnotou:
Normální pravděpodobnostní graf
Statistika- Základní statistiky/tabulky ­
Popisné statistiky ­ Prav. & bod. grafy
Ověřování předpokladu normality
* Vytvoříme nejprve graf předpovídaných hodnot vs. pozorovaných
hodnot.
* Mají-li rezidua normální rozdělení, měl by tzv. normální
pravděpodobnostní graf vytvořit přímku.
ˇPřítomnost jakýchkoli velkých odchylek by mohla znamenat doporučení
transformace dat před provedením analýzy nebo nutnost provedení
neparametrické verze testu.
ˇJak je patrné z normálního grafu, v našem případě je sestavený model
ANOVA vyhovující.
Mnohonásobná porovnávání
* Analýza rozptylu nám pouze říká, že průměry nejsou stejné. Je třeba
provést další analýzu, abychom zjistili, jak se liší.
* Jednou z možností je porovnat každou dvojici průměrů, nebo dvojice,
které nás zajímají.
* Mnohonásobné testování významnosti dává vysokou
pravděpodobnost, že bude nalezen významný rozdíl pouze náhodou.
* Například: test má 5% možnost chybného pozitivního výsledku
(hladina významnosti ).
* To znamená, že při opakovaném testování bychom chybně zamítli
nulovou hypotézu v 5 % případů ­ tedy např. při padesáti testech
uděláme při  = 0,05 2-3 chyby .
* Kdybychom měli čtyři skupiny a porovnali je navzájem tak, že bychom
provedli všech šest testů, potom by pravděpodobnost, že dostaneme
nejméně jednou chybný pozitivní výsledek (chyba prvního druhu), byla
mnohem větší než 5 %.
Mnohonásobná porovnávání
Tato situace se označuje jako problém mnohonásobného porovnávání a
pro jeho řešení existuje několik metod (např. Bonferroniho, Tukeyova,
Newman-Keulsova, Duncanova, Fisherovo LSD (nejmenší významný
rozdíl - Least Significant Difference) a Scheffého).
Úkolem každé metody je udržet danou hladinu pravděpodobnosti chyby
prvního druhu (5 %) a v podstatě ji rozdělit mezi všechna porovnání.
Mnohonásobná porovnávání
Bonferroniho metoda: Pro ta porovnání, která nás zajímají, provedeme
modifikované t-testy s upravenou hladinou významnosti.
Tu získáme tak, že hladinu  jednoduše vydělíme celkových počtem
porovnání, která chceme provést.
Tato hodnota pak bude naší hladinou významnosti pro každý t-test.
Řekněme, že pro náš příklad chceme provést všechna možná porovnání
- pro tři skupiny existují tři.
Naše hladina významnosti pro každé porovnání nebude tedy 5 %, ale
(5/3) % = 1,67 %.
Nulová a alternativní hypotéza jsou stejné jako pro obyčejný t test.
Mnohonásobná porovnávání
Testová statistika t-testu se v tomto případě počítá následujícím
způsobem:


+
-
=
21
21
11
nn
S
xx
t
e
e

Od běžného t-testu se liší ve jmenovateli ­ na místo rozptylu jen ze
dvou skupin(které porovnáváme) použijeme sdruženou verzi rozptylu
ze všech skupin, včetně těch, které nepoužíváme při porovnávání.
Za platnosti nulové hypotézy má testová charakteristika t rozdělení
s e stupni volnosti.
Upravená hladina významnosti při třech skupinách (viz. výše) se rovná
1,67%.
Je-li tedy vypočtená hladina významnosti (p hodnota) menší než
0,0167, potom zamítáme nulovou hypotézu o rovnosti průměrů dvou
testovaných skupin.
Výsledky mnohonásobných porovnávání
Příklad: srovnání jednotlivých skupin:
první ­ druhá t = 3,22 p < 0,0167
první ­ třetí t = 1,87 p > 0,0167
druhá ­ třetí t = -0,90 p > 0,0167
Výsledky ANOVA nám ukazují, že existuje významný rozdíl mezi
průměry skupin 1 a 2.
Příklad ANOVA v programu Statistica ­ část II. pokračování
1) Porovnání ­ 2) Více výsledků ­ 3) Bonferroniův
Závěr: významně se liší lokality A, B
Jednofaktorová ANOVA ­ základní
interpretace výsledků v programu Statistica
Příklad řešený v EXCELu:
Příklad: Zjistěte, zda se významně liší hodnoty maximálních měsíčních
nárazů větru naměřené v letech 1921 až 1923 na stanici Praha -Karlov
Hodnoty maximálních měsíčních nárazů větru pro =0,05 se neliší
Příklad ANOVA v programu Statistica
Statistika ­ ANOVA ­ jednofaktorová ANOVA ­ Rychlé nastavení
4) testovací
kritérium
5) odpovídající
p-hodnota
1) uspořádání
vstupních dat
2) zadání
vstupních dat
pro ANOVA
3) výsledná
tabulka ANOVA
Neparametrická Analýza rozptylu
(Kruskalův ­Wallisův test)
* měření nejsou normálně rozdělena, jsou měřena na ordinální škále, ...
* využívá ne vlastních měřených hodnot, ale jejich pořadí (rank), které
získáme jejich setříděním.
Nulová hypotéza Ho: Měření ve skupinách mají stejné mediány
mH  ~...~~: 210 ===
Alternativní hypotéza H1: Alespoň pro jednu dvojici i,j platí:
ji  ~~ 
Kruskalův ­Wallisův test ­ obecný postup
* Uspořádáme všech n měření podle velikosti.
* Nahradíme hodnoty měření jejich pořadími
* Vypočítáme hodnoty SRj ­ tj. součet pořadí měření ze skupiny j
* Vypočítáme testovací charakteristiku H jako míru rozdílnosti
mediánu pořadí ve skupinách
* Pokud platí Ho, potom pro velká nj má testovací statistika H přibližně
2 rozdělení
* Na zvolené hladině významnosti  zamítáme H0, pokud testovací
statistika H je větší než kritická hodnota 2 rozdělení o m-1 stupních
volnosti.
* A nebo: vypočtenému H příslušející p hodnota je menší než hladina
významnosti .
)1(3
)(
)1(
12
2
+-


+
=  n
n
SR
nn
H
j j
j
Kruskalův ­ Wallisův test
příklad
Tři skupiny respondentů po 10 členech.
* Skupina A ­ lidé pracující v chemickém závodě a bydlící v jeho okolí
* Skupina B ­ lidé pracující mimo lokalitu a bydlící v sousedství
chemického závodu
* Skupina C ­ lidé, kteří nepracují v chemické továrně, ani nebydlí v jejím
okolí
Výsledky dotazníku jsou v dispozici ve formě skore.
Zjistěte, zda existuje významný
rozdíl v názorech lidí žijících
v různých lokalitách na ohrožení
životního prostředí?
Kruskalův ­ Wallisův test - příklad
 =101AR  = 216BR  =148CR
Vstupní data:
Kruskalův ­Wallisův test
)1(3
)()()(
)1(
12 222
+-


+

+


+
= n
n
R
n
R
n
R
nn
H
C
C
B
B
A
A
627,8313
10
148
10
216
10
101
3130
12 222
=-


++

=H
V tabulkách najdeme kritickou hodnotu 2 rozdělení pro  = 0,05 a pro
 = m - 1, tedy 2 stupně volnosti: 5,991
Závěr: Odmítáme nulovou hypotézu. V názorech lidí žijících v různých
lokalitách na ohrožení životního prostředí je statisticky významný rozdíl
na hladině významnosti  = 0,05.
Výpočet testovacího kritéria
Kruskalův ­Wallisův test - Statistica
Statistika ­ Neparametrická statistika ­
Porovnání více nezávislých vzorků (skupiny)
Analýza rozptylu při dvojném třídění
Zkoumáme vliv dvou faktorů (např. A, B) na závisle proměnnou
a ­ počet úrovní faktoru A
b ­ počet úrovní faktoru B
nij ­ počet objektů odpovídajících i-té úrovni faktoru A a j-té úrovni
faktoru B
Často jsou všechny četnosti nij stejné: nij = c (tzv. vyvážené třídění)
Model ANOVA při dvojném třídění
ijkijjiijkx  ++++=
 - společná část průměru závisle proměnné
i - efekt faktoru A na úrovni i (i=1, ..., a)
j - efekt faktoru B na úrovni j (j=1, ..., b)
ij - interakce mezi faktorem A na úrovni i a faktorem B na úrovni j
ijk ­ náhodná chyba s nulovou střední hodnotou, normálním
rozdělením a stejným rozptylem pro všechna i, j.
Pro každou kombinaci faktorů měříme c objektů (k=1,2,...c), c>1
Model ANOVA při dvojném třídění
Zkoumáme tři páry hypotéz:
H01: 1 = 2 =....= a = 0
H11: Ne všechny efekty i jsou nulové
H02: 1 = 2 =....= b = 0
H12: Ne všechny efekty j jsou nulové
H03: Mezi faktory A B není žádná interakce (všechna ij=0)
H13: Některé interakce jsou nenulové
Testovací statistika F opět vychází z rozkladu čtverců odchylek měření
od společného průměru x
Symbolicky:
ST = SA + SB + SI + Se
SA, SB ­ efekty faktorů
SI ­ interakce
Se ­ variabilita uvnitř skupin
Tabulka výstupu z ANOVA při dvojném třídění
INTERAKCE:
Značí, že faktory nepůsobí izolovaně - jinými slovy nejsou nezávislé.
Faktory produkují větší (menší) efekt, než který bychom zjistili, kdybychom
posuzovali každý faktor zvlášť.
Významné interakce způsobují, že jednotlivé faktory nevysvětlují veškerou
variabilitu
Hypotézu o existenci (H03) či neexistenci (H13) interakcí zkoumáme jako
první.
Příklad ­ výsledky ANOVA při dvojném třídění