Statistické metody a zpracování dat V. Analýza rozptylu (ANOVA) Petr Dobrovolný K čemu to je (příklad) Studenti se připravovali na test ze statistiky třemi různými metodami. Existuje významný rozdíl mezi metodami přípravy? Existuje rozdíl K čemu to je? ˇ Porovnávání libovolného počtu průměrů (více než dvou). ˇ Jeden či více tzv. faktorů dělí vyšetřované znaky do skupin. ˇ Testujeme, zda existuje významný rozdíl v průměrech skupin Příklady: ˇ Vliv průmyslové lokality na koncentraci přízemního ozónu v ovzduší. Pro čtyři lokality jsme získali několik vzorků měření koncentrace přízemního ozónu. Máme zjistit, zda má lokalita významný vliv na koncentraci ozónu. Existuje lokalita, která se významně liší od ostatních? ˇ Existuje významný rozdíl v názoru různých skupin obyvatelstva na problém polohy brněnského nádraží? Obecný problém, který řeší ANOVA Máme m nezávislých náhodných výběrů (m>2, j=1,2,....m) vyšetřované proměnné x. Rozsahy výběrů nj nemusí být stejné. V každém výběru je znám průměr a rozptyl sj 2. Výběry vzniknou obvykle tak, že základní soubor rozdělíme podle určitého znaku (FAKTORU) do m skupin a v každé z nich pak vybereme ni prvků. Prvek xij označuje i-té pozorování v j-tém výběru jx Základní druhy ANOVA ˇ ANOVA při jednoduchém třídění (jednofaktorová) ­ sledujeme efekt jednoho faktoru na závisle proměnnou ˇ ANOVA vícefaktorová ­ při dvojnásobném třídění, ... ˇ ANOVA při vyváženém třídění (stejný počet prvků ve skupinách) a při nevyváženém třídění ˇ ANOVA s opakováním měření ˇ Neparametrická ANOVA 1) Museli bychom provádět velký počet testování (pro m skupin m.(m-1)/2 testů 2) Opakovaným porovnáváním významnosti bychom neoprávněně zvyšovali pravděpodobnost chyby prvního druhu. U každého testu je řekněme 5% možnost chybného pozitivního výsledku (tedy chyby prvního druhu - hladina významnosti = 0,05) pokud neexistuje žádný rozdíl. Máme-li tři skupiny a provedeme všechny tři testy, pravděpodobnost, že dostaneme nejméně jeden chybný pozitivní výsledek (chybu prvního druhu) je větší než 5 %. S rostoucím počtem provedených testů roste pravděpodobnost, že alespoň jeden výsledek bude statisticky významný, přestože ve skutečnosti platí nulová hypotéza. Abychom se tomuto problému vyhnuli, použijeme k testování hypotézy metodu analýzy rozptylu a testů, které řeší tzv. mnohonásobná porovnávání (viz. dále). (poznámka)Dva důvody, proč nemůžeme analýzu provést postupným testováním jednotlivých dvojic (např. t-testem): Obecný model analýzy rozptylu ANOVA je založena na předpokladu, že každý z m výběrů pochází z populace s normálním rozdělením se stejnou směrodatnou odchylkou. Zajímá nás, zda střední hodnoty (průměry) skupin jsou všechny shodné, nebo zda se navzájem liší. xij je i-té pozorování z j-té skupiny. Každé pozorované x je funkcí nějaké celkové průměrné hodnoty , skupinového efektu i a blíže nespecifikované náhodné chyby ij . ijiijx ++= Model ANOVA - variabilita uvnitř skupin hodnoty faktoru Model ANOVA - variabilita mezi skupinami celkový průměr skupinové průměry skupinové efekty hodnoty faktoru Zdroje variability v modelu ANOVA celkový průměr () skupinové průměry variabilita uvnitř skupiny () celková variabilita variabilita mezi skupinami () xij hodnoty faktoru Obecný model analýzy rozptylu Z předchozího plyne, že střední hodnota j-té skupiny je rovna: V analýze rozptylu chceme zjistit, zda jsou skupinové efekty důležité, tj. zda existuje nějaký rozdíl mezi průměry jednotlivých skupin. Nulová hypotéza H0: všechny výběry pocházejí z jednoho základního souboru s normálním rozložením (jinými slovy ­ faktor neovlivňuje závisle proměnnou) H0: 1 = 2 = ...= i = ....= m = nebo: H0: 1 = 2 =...= i = ....= m = 0 Cílem ANOVA je zjistit, zda se jednotlivé dílčí průměry m mezi sebou a tedy i od celkového průměru liší pouze v mezích náhodného kolísání. jj += Obecný výpočet ANOVA Podstatou výpočtů při ANOVA je rozdělení celkového rozptylu (ST) závisle proměnné do dvou částí, na variabilitu uvnitř skupin (Se) a variabilitu mezi skupinami (SA) Variabilita uvnitř skupin popisuje, jak se každá hodnota ve skupině liší od skupinového průměru. Variabilita mezi skupinami je funkcí, která ukazuje, jak se navzájem liší skupinové průměry. Zahrnuje porovnání všech k skupinových průměrů s tzv. celkovým průměrem. Pokud neexistuje žádný rozdíl mezi skupinovými průměry, pak variabilita mezi skupinami i variabilita v rámci skupiny popisují stejný jev - stejný populační rozptyl. Toto porovnání variability v rámci skupiny a mezi skupinami se provádí pomocí F testu. ST = SA + Se Obecný výpočet ANOVA eA j i jij j jj j i ijT SSxxxxnxxS +=-+-=-= 222 )()()( Zkoumáme, že vypočtené průměry se liší jen v mezích náhodného kolísání jx x Odchylku konkrétního měření xij od celkového průměru lze zapsat: )()( xxxxxx jjijij -+-=- odhad parametru j - tedy efekt kategorie j Umocníme a sečteme obě strany rovnice pro všechna měření: Obecný výpočet ANOVA Jednotlivé složky celkového rozptylu mají tento význam: ST ­ celkový součet čtverců odchylek všech měření od celkového průměru SA - vážený součet druhých mocnin rozdílů každého skupinového průměru a celkového průměru Se - součet druhých mocnin rozdílů hodnot a příslušného skupinového průměru Každé složce rozptylu přísluší jistý počet stupňů volnosti : T pro ST ­ počet pozorování ­ 1: (n-1) A pro SA - počet skupin ­ 1: (m-1) e pro Se ­ počet pozorování ­ počet skupin: (n ­ m) Obecný výpočet ANOVA A A A S MS = Charakteristiky e e e S MS = představují součty čtverců dělené odpovídajícím počtem stupňů volnosti. Tyto veličiny jsou mírou variability pro jednotlivé zdroje rozptylu a ve statistických programech jsou označovány anglicky jako Mean Square (průměrné čtverce). Testovací kritérium se potom vypočte jako podíl míry variability mezi skupinami a míry variability uvnitř skupin podle následujícího vztahu: ( ) ( ) ee AA S S skupinuvnitřMS skupinamimeziMS F / / _ _ == Typická tabulka výstupu z ANOVA Výstupy ze statistického programu ještě nabízejí p hodnotu příslušející vypočtené hodnotě testovacího kritéria Interpretace testovacího kritéria ˇ V případě platnosti H0 (všechny populační průměry shodné) bude čitatel F statistiky (zhruba) stejný jako jmenovatel (tzv. reziduální rozptyl) ˇ Pak by tedy hodnota F statistiky byla přibližně rovna jedné. Ve statistických tabulkách zjistíme, zda hodnota F je významně větší než 1 ˇ To by ukazovalo, že MS mezi skupinami je významně větší než MS uvnitř skupin, a tedy že se průměry skupin liší. ˇ (Pokud by F statistika byla menší než 1, pak to znamená, že variabilita mezi skupinami může být dokonce menší než uvnitř skupin, a tedy tím spíše není důvod zamítat nulovou hypotézu.) ˇ K výpočtu příslušných kritických hodnot i dosažených hladin významnosti lze využít i různé statistické programy. Příklad ANOVA při jednoduchém třídění Zjistěte, zda se na hladině významnosti =0,05 liší se koncentrace znečišťující látky (ppm) v ovzduší měřené na třech lokalitách? Příklad Vizuální analýza jednotlivých skupin za pomoci vhodného grafu a porovnání úrovně a variability skupin. Příklad Protože p = 0,0148, což je méně než = 0,05, můžeme zamítnout nulovou hypotézu a učinit závěr, že průměrná koncentrace znečišťující látky není ve všech třech skupinách stejná. Výpočet v EXCELU: Nástroje ­ Analýza dat ­ ANOVA jeden faktor Příklad ANOVA v programu Statistica ­ část I. Statistika ­ ANOVA ­ jednofaktorová ANOVA ­ Rychlé nastavení 4) testovací kritérium 5) odpovídající p-hodnota 1) uspořádání vstupních dat 2) zadání vstupních dat pro ANOVA 3) výsledná tabulka ANOVA Dva problémy výsledu ANOVA: 1) Zda jsou výsledky ANOVA vůbec použitelné - musíme ověřit, že náš model splňuje předpoklady 2) Výsledek ANOVA nám neříká, které průměry se navzájem liší. Můžeme se podívat na skupinové průměry a zjistit, že určitá skupina má vyšší průměr než ostatní skupiny. V tuto chvíli ale nemůžeme říci, že tento průměr je významně vyšší. Musíme data analyzovat dále použitím metod mnohonásobného porovnávání, abychom zjistili, které průměry se navzájem významně liší. Předpoklady ANOVA a) Všechna měření musí být vzájemně nezávislá uvnitř skupin i mezi skupinami b) Vyšetřovaný znak, jehož průměry chceme porovnávat musí mít normální rozdělení c) Rozptyly jednotlivých výběrů se mezi sebou statisticky neliší (což ověřujeme testy (Bartlettův test nebo tzv. Hartleyův test (Fmax test) - pokud mají všechny výběry stejný rozsah.) Aby byly výsledky analýzy rozptylu správné, musí být splněny následující předpoklady: Ad c) předpoklad rovnosti rozptylů Zkoumáme, zda je splněno: 3 min max j j s s Hodnoty sj jsou směrodatné odchylky měření v jednotlivých skupinách Ad b) předpoklad normálního rozdělení Ověřování lze provádět graficky analýzou tzv. reziduálních (zbytkových) hodnot Hodnoty pozorovaných veličin můžeme vyjádřit takto: ijiijx ++= ij jsou náhodné navzájem nezávislé chybové složky (rezidua) ˇ Model platí pro základní soubor ˇ Skutečné parametry však můžeme pouze odhadovat z výběrových souborů. ˇ V následujícím příkladu index o u symbolu parametru znamená, že se jedná o odhad. Ověřování normality Příklad: o ­ celkový průměr = 282,7 o1 = průměr první skupiny - celkový průměr = 316,6 ­ 282,7 = 33,9 o2 = průměr druhé skupiny - celkový průměr = 256,4 ­ 282,7 = -26,3 o3 = průměr třetí skupiny - celkový průměr = -7,1 oj - odhady skupinových efektů - tedy toho, jak se každý průměr liší od celkového průměru. Předpovídaná hodnota pro pozorování z j-té skupiny je průměr j-té skupiny: oi = o + oi Naším modelem ANOVA jsme tedy vypočetli, že například průměrná hodnota koncentrace měřené látky se v první skupině rovná 282,7 + 33,9 = 316,6. Ověřování normality Rezidua (zbytkové hodnoty) pro každé pozorování spočteme jako rozdíl mezi pozorovanou hodnotou a předpovídanou hodnotou: Normální pravděpodobnostní graf Statistika- Základní statistiky/tabulky ­ Popisné statistiky ­ Prav. & bod. grafy Ověřování předpokladu normality ˇ Vytvoříme nejprve graf předpovídaných hodnot vs. pozorovaných hodnot. ˇ Mají-li rezidua normální rozdělení, měl by tzv. normální pravděpodobnostní graf vytvořit přímku. ˇPřítomnost jakýchkoli velkých odchylek by mohla znamenat doporučení transformace dat před provedením analýzy nebo nutnost provedení neparametrické verze testu. ˇJak je patrné z normálního grafu, v našem případě je sestavený model ANOVA vyhovující. Mnohonásobná porovnávání ˇ Analýza rozptylu nám pouze říká, že průměry nejsou stejné. Je třeba provést další analýzu, abychom zjistili, jak se liší. ˇ Jednou z možností je porovnat každou dvojici průměrů, nebo dvojice, které nás zajímají. ˇ Mnohonásobné testování významnosti dává vysokou pravděpodobnost, že bude nalezen významný rozdíl pouze náhodou. ˇ Například: test má 5% možnost chybného pozitivního výsledku (hladina významnosti ). ˇ To znamená, že při opakovaném testování bychom chybně zamítli nulovou hypotézu v 5 % případů ­ tedy např. při padesáti testech uděláme při = 0,05 2-3 chyby . ˇ Kdybychom měli čtyři skupiny a porovnali je navzájem tak, že bychom provedli všech šest testů, potom by pravděpodobnost, že dostaneme nejméně jednou chybný pozitivní výsledek (chyba prvního druhu), byla mnohem větší než 5 %. Mnohonásobná porovnávání Tato situace se označuje jako problém mnohonásobného porovnávání a pro jeho řešení existuje několik metod (např. Bonferroniho, Tukeyova, Newman-Keulsova, Duncanova, Fisherovo LSD (nejmenší významný rozdíl - Least Significant Difference) a Scheffého). Úkolem každé metody je udržet danou hladinu pravděpodobnosti chyby prvního druhu (5 %) a v podstatě ji rozdělit mezi všechna porovnání. Mnohonásobná porovnávání Bonferroniho metoda: Pro ta porovnání, která nás zajímají, provedeme modifikované t-testy s upravenou hladinou významnosti. Tu získáme tak, že hladinu jednoduše vydělíme celkových počtem porovnání, která chceme provést. Tato hodnota pak bude naší hladinou významnosti pro každý t-test. Řekněme, že pro náš příklad chceme provést všechna možná porovnání - pro tři skupiny existují tři. Naše hladina významnosti pro každé porovnání nebude tedy 5 %, ale (5/3) % = 1,67 %. Nulová a alternativní hypotéza jsou stejné jako pro obyčejný t test. Mnohonásobná porovnávání Testová statistika t-testu se v tomto případě počítá následujícím způsobem: + - = 21 21 11 nn S xx t e e Od běžného t-testu se liší ve jmenovateli ­ na místo rozptylu jen ze dvou skupin(které porovnáváme) použijeme sdruženou verzi rozptylu ze všech skupin, včetně těch, které nepoužíváme při porovnávání. Za platnosti nulové hypotézy má testová charakteristika t rozdělení s e stupni volnosti. Upravená hladina významnosti při třech skupinách (viz. výše) se rovná 1,67%. Je-li tedy vypočtená hladina významnosti (p hodnota) menší než 0,0167, potom zamítáme nulovou hypotézu o rovnosti průměrů dvou testovaných skupin. Výsledky mnohonásobných porovnávání Příklad: srovnání jednotlivých skupin: první ­ druhá t = 3,22 p < 0,0167 první ­ třetí t = 1,87 p > 0,0167 druhá ­ třetí t = -0,90 p > 0,0167 Výsledky ANOVA nám ukazují, že existuje významný rozdíl mezi průměry skupin 1 a 2. Příklad ANOVA v programu Statistica ­ část II. pokračování 1) Porovnání ­ 2) Více výsledků ­ 3) Bonferroniův Závěr: významně se liší lokality A, B Jednofaktorová ANOVA ­ základní interpretace výsledků v programu Statistica Příklad řešený v EXCELu: Příklad: Zjistěte, zda se významně liší hodnoty maximálních měsíčních nárazů větru naměřené v letech 1921 až 1923 na stanici Praha -Karlov Hodnoty maximálních měsíčních nárazů větru pro =0,05 se neliší Příklad ANOVA v programu Statistica Statistika ­ ANOVA ­ jednofaktorová ANOVA ­ Rychlé nastavení 4) testovací kritérium 5) odpovídající p-hodnota 1) uspořádání vstupních dat 2) zadání vstupních dat pro ANOVA 3) výsledná tabulka ANOVA Neparametrická Analýza rozptylu (Kruskalův ­Wallisův test) ˇ měření nejsou normálně rozdělena, jsou měřena na ordinální škále, ... ˇ využívá ne vlastních měřených hodnot, ale jejich pořadí (rank), které získáme jejich setříděním. Nulová hypotéza Ho: Měření ve skupinách mají stejné mediány mH ~...~~: 210 === Alternativní hypotéza H1: Alespoň pro jednu dvojici i,j platí: ji ~~ Kruskalův ­Wallisův test ­ obecný postup ˇ Uspořádáme všech n měření podle velikosti. ˇ Nahradíme hodnoty měření jejich pořadími ˇ Vypočítáme hodnoty SRj ­ tj. součet pořadí měření ze skupiny j ˇ Vypočítáme testovací charakteristiku H jako míru rozdílnosti mediánu pořadí ve skupinách ˇ Pokud platí Ho, potom pro velká nj má testovací statistika H přibližně 2 rozdělení ˇ Na zvolené hladině významnosti zamítáme H0, pokud testovací statistika H je větší než kritická hodnota 2 rozdělení o m-1 stupních volnosti. ˇ A nebo: vypočtenému H příslušející p hodnota je menší než hladina významnosti . )1(3 )( )1( 12 2 +- + = n n SR nn H j j j Kruskalův ­ Wallisův test příklad Tři skupiny respondentů po 10 členech. ˇ Skupina A ­ lidé pracující v chemickém závodě a bydlící v jeho okolí ˇ Skupina B ­ lidé pracující mimo lokalitu a bydlící v sousedství chemického závodu ˇ Skupina C ­ lidé, kteří nepracují v chemické továrně, ani nebydlí v jejím okolí Výsledky dotazníku jsou v dispozici ve formě skore. Zjistěte, zda existuje významný rozdíl v názorech lidí žijících v různých lokalitách na ohrožení životního prostředí? Kruskalův ­ Wallisův test - příklad =101AR = 216BR =148CR Vstupní data: Kruskalův ­Wallisův test )1(3 )()()( )1( 12 222 +- + + + = n n R n R n R nn H C C B B A A 627,8313 10 148 10 216 10 101 3130 12 222 =- ++ =H V tabulkách najdeme kritickou hodnotu 2 rozdělení pro = 0,05 a pro = m - 1, tedy 2 stupně volnosti: 5,991 Závěr: Odmítáme nulovou hypotézu. V názorech lidí žijících v různých lokalitách na ohrožení životního prostředí je statisticky významný rozdíl na hladině významnosti = 0,05. Výpočet testovacího kritéria Kruskalův ­Wallisův test - Statistica Statistika ­ Neparametrická statistika ­ Porovnání více nezávislých vzorků (skupiny) Analýza rozptylu při dvojném třídění Zkoumáme vliv dvou faktorů (např. A, B) na závisle proměnnou a ­ počet úrovní faktoru A b ­ počet úrovní faktoru B nij ­ počet objektů odpovídajících i-té úrovni faktoru A a j-té úrovni faktoru B Často jsou všechny četnosti nij stejné: nij = c (tzv. vyvážené třídění) Model ANOVA při dvojném třídění ijkijjiijkx ++++= - společná část průměru závisle proměnné i - efekt faktoru A na úrovni i (i=1, ..., a) j - efekt faktoru B na úrovni j (j=1, ..., b) ij - interakce mezi faktorem A na úrovni i a faktorem B na úrovni j ijk ­ náhodná chyba s nulovou střední hodnotou, normálním rozdělením a stejným rozptylem pro všechna i, j. Pro každou kombinaci faktorů měříme c objektů (k=1,2,...c), c>1 Model ANOVA při dvojném třídění Zkoumáme tři páry hypotéz: H01: 1 = 2 =....= a = 0 H11: Ne všechny efekty i jsou nulové H02: 1 = 2 =....= b = 0 H12: Ne všechny efekty j jsou nulové H03: Mezi faktory A B není žádná interakce (všechna ij=0) H13: Některé interakce jsou nenulové Testovací statistika F opět vychází z rozkladu čtverců odchylek měření od společného průměru x Symbolicky: ST = SA + SB + SI + Se SA, SB ­ efekty faktorů SI ­ interakce Se ­ variabilita uvnitř skupin Tabulka výstupu z ANOVA při dvojném třídění INTERAKCE: Značí, že faktory nepůsobí izolovaně - jinými slovy nejsou nezávislé. Faktory produkují větší (menší) efekt, než který bychom zjistili, kdybychom posuzovali každý faktor zvlášť. Významné interakce způsobují, že jednotlivé faktory nevysvětlují veškerou variabilitu Hypotézu o existenci (H03) či neexistenci (H13) interakcí zkoumáme jako první. Příklad ­ výsledky ANOVA při dvojném třídění