9 Analýza rozptylu: porovnání více průměrů Mnoho studií má komparativní charakter. Srovnáváme např. platy žen a mužů nebo hodnoty cílové proměnné v kontrolovaném klinickém pokusu. Data v takovém výzkumu se mohou přehledně zobrazit pomocí krabicového grafu nebo sloupkového grafu, také můžeme pro číselné srovnání použít kvantilové charakteristiky rozložení dat ve skupinách nebo průměry a směrodatné odchylky. Při statistickém usuzování se ptáme, zda jsou rozdíly mezi skupinami statisticky významné. Pro porovnání průměrů dvou populací nebo průměrů cílové proměnné sledované v kontrolovaném dvouskupinovém experimentu použijeme /-test, který jsme popsali v kapitole 6.2. Studie se však neomezují pouze na dvě skupiny. Potřebujeme tedy metody pro porovnání libovolného počtu průměrů. Takové metody existují a používají se pod shrnujícím názvem analýza rozptylu. Je vhodná např. k zodpovězení následujících otázek: ■ Liší se ve svém účinku tři metody výuky statistiky na středních školách? Naučí se žáci pomocí některé z těchto metod více než žáci, kteří jsou vyučování jinými metodami? ■ Dožívají se leváci kratšího věku než praváci? Protože ženy žijí déle než muži, je nutné připravit dvoufaktorový plán výzkumu, aby se zohlednil vliv faktoru pohlaví. Analýzu rozptylu (ANOVA, analysis of variance) rozvinul R. A. Fisher začátkem 20. století. Jedná se o třídu statistických modelů a technik, které lze využít v mnoha výzkumných situacích. Fisherovy statistické práce vznikaly v rámci zemědělského výzkumu v ústavu Rothamsted Experimental Station při vyhodnocování zemědělských pokusů. Před Fisherovým příchodem se zemědělský pokus prováděl tak, že se pole rozdělilo na několik „parcel" a každá parcela byla ošetřena (hnojena) určitým způsobem. Následně se srovnávaly výnosy z jednotlivých parcel. Bylo však zřejmé, že rozdíly ve výnosech mohou být způsobeny jinými faktory než hnojivem, např. rozdílnou kvalitou půdy. Fisher navrhl roz- 337 PŘEHLED STATISTICKÝCH METOD dělit pole na bloky a každý blok na parcely (plots). Každá parcela uvnitř bloku pak dostala náhodně přiřazené ošetření. Toto schéma výzkumu (design) se stalo základem pro analýzu, známou dnes pod názvem analýza rozptylu. Jádro Fisherova postupu tvoří dva principy. První spočívá v klíčové roli, již hraje randomizace (znáhodnění) v experimentování. Tím se zajišťuje eliminace systematického zkreslení efektu posuzovaného ošetření. Randomizace také umožňuje validní odhady náhodné chyby, což má vztah k druhému principu, k možnosti kontrolované odhadovat náhodnou chybu opakování ošetření. Opakováním každého ošetření v blocích a uvnitř bloku můžeme v pozorované variabilitě lépe identifikovat variabilitu mezi parcelami uvnitř bloků po „očištění" od variability mezi bloky. Fisher popsal základy analýzy rozptylu v knížce Statistical methods for research z roku 1925. Obecně spočívá základní funkce analýzy rozptylu v posouzení hlavních a interakčních efektů kategoriálních nezávislých proměnných na závisle proměnnou kvantitativního typu. Nezávisle proměnné v ANOVA často nazýváme faktory a jejich hodnoty úrovně nebo kategorie. Nejjednodušším případem je analýza rozptylu jednoduchého třídění, kdy analyzujeme efekt jednoho faktoru na závisle proměnnou. Jde o přímé zobecnění případu zkoumání rozdílu mezi dvěma nezávislými skupinami pomocí /-testu na případy zkoumání rozdílů mezi více skupinami (odpovídajícím jednotlivým úrovním neboli kategoriím faktoru). Pokud zkoumáme vliv více faktorů, rozlišujeme mezi hlavními efekty a efekty, které jsou způsobeny interakcemi mezi faktory při působení na závisle proměnnou. Hlavní efekt je přímý efekt faktoru na závisle proměnnou. Interakční efekt je spojený efekt kombinace dvou nebo více faktorů na závisle proměnnou. Pomocí obecnějších modelů analyzujeme podobné úlohy s kategoriální závisle proměnnou (GLM, general linear model). Také existují postupy, jež do modelu zařazují mezi nezávisle proměnné intervalové proměnné (analýza kova-riance, ANCOVA, analysis of covariance) nebo modely, které analyzují simultánně ovlivnění více nezávislých proměnných (MÁNOVA, multiple analysis of variance). Základní statistikou v analýze rozptylu je F-testovací statistika rozdílnosti skupinových průměrů, pomocí níž se testuje hypotéza, zda průměry ve skupinách určených kombinacemi faktorů se od sebe liší více než na základě působení náhodného kolísání. Pokud se průměry neliší významně, usuzujeme, že faktory nemají na závisle proměnnou vliv. Jestliže F-test indikuje nějaký systematický vliv, používají se testy simultánního srovnávání pro nalezení kombinací hodnot faktorů, které nejvíce přispívají k systematickým vlivům. Testovací F-statistika musí zohlednit rozdílnosti ve výběrových průměrech a zároveň přirozenou variabilitu závisle proměnné. V podstatě měří určitým 338 9 ANALÝZA ROZPTYLU: POROVNÁNÍ VÍCE PRŮMĚRŮ způsobem velikost rozdílnosti výběrových průměrů a její hodnota závisí jednak na výběrových průměrech v jednotlivých skupinách, dále na velikosti těchto skupin a na rozptylu závisle proměnné uvnitř skupin. Obecně má F-statistika v analýze rozptylu formu: vážený rozptyl mezi průměry skupin p —--------------------------------------------- rozptyl mezi jedinci ve stejné skupině Pokudj celková rozdílnost měřená F-statistikou překročí určenou kritickou mez, zamítá se nulová hypotéza, že všechny teoretické průměry mají stejnou hodnotu. Analýzou konstrukce F-testu lze ukázat, že podobně jako u jiných testů dojde k zamítnutí hypotézy, pokud jsou rozdíly průměrů relativně veliké. Jestliže zamítneme hypotézu rovnosti průměrů, ještě nám to nic neřekne o rozdílech mezi jednotlivými průměry. Další analýza se musí provést pomocí metod následného zkoumání těchto rozdílů. Jestliže je plán výzkumu uspořádán vnitroskupinově s opakovaným měřením závisle proměnné u stejných objektů, jako je tomu např. u hodnocení měření před pokusem a po pokusu, výpočty při provádějí F-testů se odlišují od testů v plánech výzkumu prováděných meziskupinově. Procedury analýzy rozptylu předpokládají, že závisle proměnná v jednotlivých skupinách má normální rozdělení se stejným rozptylem. Často se také předpokládá, že pro každou skupinu je rozsah výběru měřených jednotek stejný. Tato symetrie zjednodušuje některé výpočty. 9.1 Analýza rozptylu při jednoduchém třídění Analýza rozptylu při jednoduchém třídění (one-way ANOVA) analyzuje diference průměrů sledované závisle proměnné mezi skupinami, které jsou určeny jednou kategoriální nezávisle proměnnou (faktorem). Zkoumá se, zda skupiny vytvořené tímto klasifikačním faktorem jsou podobné, nebo zda jednotlivé průměry tvoří nějaké identifikovatelné shluky. Jestliže faktor má jenom dvě kategorie (úrovně), úloha je totožná s testováním rovnosti průměru ve dvou nezávislých výběrech pomocí /-testu nebo testování hypotézy, že korelační koeficient mezi závisle proměnnou a binární proměnnou určující příslušnost měření do jedné z obou skupin má nulovou hodnotu. Popišme přesněji situaci, kterou analyzujeme pomocí této metody. Označme závisle proměnnou X. Provedeme měření na prostých náhodných výběrech objektů z m populací (j = 1, 2,..., m). Rozsahy výběrů n; mohou být různé. Pro 339 PŘEHLED STATISTICKÝCH METOD každý výběr j vypočítáme příslušný průměr xjj a rozptyl s2-. Předpokládáme, že měření vyhovují modelu Xij =/u + aj + eu, kde xn označuje /-té měření (/ = 1,2,..., nj) v y-tém výběru a fj je společná část průměru. Efekt skupiny a j způsobuje, že průměry fUj sledované proměnné v populacích si nemusí být rovny. Měření xy se liší od průměru ve své skupině o náhodnou odchylku ey. O této odchylce předpokládáme, že je normálně rozdělená s nulovou střední hodnotou a s rozptylem a-2, jenž je pro všechny měření stejný. Symbolem n označujeme celkový počet měření, který se rovná součtu všech rij. Základní hypotéza, jež nás zajímá, předpokládá, že jsou všechny průměry v jednotlivých populacích stejné, tedy Ho: fJ\ —fia — •" = /"/», alternativa je H i: Ne všechny fjj jsou stejné, nebo v jiném přepisu Ho: a\ = or2 = • • ■ = &m - 0, s alternativou Hi: Ne všechny a j jsou nulové. Nulová hypotéza tedy znamená, že faktor neovlivňuje závisle proměnnou X. Při analýze dat zkoumáme, zda vypočtené průměry Xj se od sebe liší jen v mezích náhodného kolísání od společného průměru x, nebo zda je nulová hypotéza porušena. Konstrukce testovací F-statistiky vychází z rozkladu součtu čtverců odchylek měření od společného průměru x. Odchylku měření x,; od x přepíšeme ve formě rozkladu Xy—x - (xjj-Xj)+(xj-x). V tomto vyjádření hodnota Xj-x představuje odhad parametru <*,, tedy efektu kategorie j. Jestliže umocníme a sečteme obě strany rovnice pro všechna měření, pak po úpravách (při kterých se vyruší všechny ostatní členy vzniklé při umocnění) dostaneme Sr = YjYj (Xi-> - *) = Z Z (X'J ~ *j). + Z nJ (XJ ~x) =S«+Sa- j i j • J Tento výraz říká, že celkový součet čtverců S r se rovná součtu čtverců odchylek uvnitř výběrů Se a součtu čtverců rozdílů mezi výběry S a- K součtům čtverců rozdílů patří stupně volnosti n - l,n-mam- 1. Když jimi vydělíme příslušné součty, dostaneme tzv. průměrné čtverce MS (mean squares): MST=ST/(n- 1), MSe = Se/(n-m), MSA=SA/(m-l) Platí, že statistika F - MS a I'MS e má za platnosti nulové hypotézy F-rozdělení se stupni volnosti (m - l, n - m). Tato F-statistika měří globální odchylku dat od nulové hypotézy. Je tomu tak proto, že obě hodnoty MS a a MSe odhadují za 340 9 ANALÝZA ROZPTYLU: POROVNÁNÍ VÍCE PRŮMĚRŮ Tab. 9.1 Schéma tabulky analýzy rozptylu Zdroj variability S st.v. MS F faktor A reziduálni se m- 1 n- m F_MSA ' MSg Celková variabilita ST n-1 platnosti nulové hypotézy společný rozptyl o2. Pokud je však porušena nulová hypotéza, hodnota MS a bude významně větší než MSe. Velikost mezního poměru určuje kritická mez pro /-"-rozdělení s příslušnými stupni volnosti. Výpočty se obvykle shrnují tabulkou analýzy rozptylu (tab. 9.1). PŘÍKLAD 9.1 Analýza rozptylu při jednoduchém třídění Modelová data v tabulce 9.2 popisují hodnoty kontrolního testu u studentů. Každý sloupec obsahuje data pro skupinu náhodně vybraných studentů ze skupin s danou metodou výuky. Zkoumáme nulovou hypotézu, že průměry hodnot jsou stejné ve všech skupinách. To znamená, že typ výuky (faktor A) nemá vliv na průměrnou hodnotu testu. Pro statistický test volíme hladinu významnosti 0.05. Naše hypotézy jsou: Hé-:/*i =ß2 = ßz H,: Ne všechny ß jsou stejné. Příklad dat, u nichž provádíme analýzu rozptylu Gednoduché tříděni) Metoda výuky 1 2 3 89 104 86 101 120 98 87 98 100 87 110 96 Součet 364 432 380 341 PŘEHLED STATISTICKÝCH METOD Průměry ve skupinách mají hodnoty 364 _. . 432 tna . 380 - *! = —- = 91, x2 = — = 108 a x3 = — = 95. Celkový průměr je průměr ze všech hodnot . 364 + 432 + 380 X =----------12---------- = 98. Vypočítáme tři součty čtverců. a) Celkový součet čtverců je totéž co čitatel při počítání výběrového rozptylu ze všech 12 měření: *=I2 Xu-XV = ( (89 - 98)2 + (104 - 98)2 + (86 - 98)2 ^ + (101 -98)2 + (120-98)2 + (98 - 98)2 + (87-98)2 + (98-98)2 + (100 - 98)2 ^+ (87 -98)2 + (110-98)2 + (96 - 98)2 ^ = 1148 b) Součet čtverců uvnitř skupin má stejný počet členů. Ty jsou však určeny rozdíly mezi měřením a příslušným skupinovým průměrem: Se = I I <*/, */>2 f (89-91)2 + (104-108)2 + (86-95)2^ + (101 -91)2 + (120-108)2 + (98-95)2 + (87-91)2 + (98-108)2 + (100-95)2 y+ (87-91)2 + (110-108)2 + (96-95)2y = 516 c) Součet čtverců mezi výběry má také stejný počet členů, ale počítá se pouze se skupinovými průměry a celkovým průměrem: %-ZZ<*/-#- f (91 -98)2 + (108-98)2 + (95 - 98)2 ^ + (91 -98)2 + (108-98)2 + (95 - 98)2 + (91 -98)2 + (108-98)2 + (95-98)s V+ (91 -98)2 + (108-98)2 + (95-98)2^ = 632 Protože se v tomto posledním vzorci opakují průměry ve sloupci pro skupinu, lze jej zjednodušit: SA = 2y n j (xj - x)2 = 4 (91 - 98)2 + 4 (108 - 98)2 + 4 (95 - 98)2 = 632 Všimněte si, že SA + Se = ST, takže výpočet jednoho ze třech součtů je zbytečný. Do schématu tabulky rozptylu (tab. 9.1, s. 341) doplníme příslušné vypočtené hodnoty (tab. 9.3) 342 9 ANALÝZA ROZPTYLU: POROVNÁNÍ VÍCE PRŮMĚRŮ Tab. 9.3 Příklad vyplněné tabulky analýzy rozptylu Zdro] variability S St. V. MS F Fo.05 mezi výběry reziduálni 632 516 2 9 316 57,333 5,51 F(2.9)=4.26 Celková variabilita 1148 11 a srovnáme vypočítané F s kritickou hodnotou F-rozdělení s příslušnými stupni volnosti s hladinou významnosti 0,05. Pokud je F větší než kritická mez, nulovou hypotézu zamítáme. Protože je v našem případě testovací statistika F větší než kritická mez, můžeme tvrdit, že máme evidenci pro zamítnutí nulové hypotézy o rovnosti průměrů kontrolního testu ve skupinách. 9.1.1 Ověření předpokladů analýzy rozptylu Aby jednoduchá analýza rozptylu byla validní, musí být splněny následující předpoklady: 1. Všechna měření musí být vzájemně nezávislá uvnitř skupin i mezi skupinami. 2. Měření v každé skupině jsou normálně rozdělená s průměrem /i,. 3. Ve všech skupinách mají měření stejný rozptyl kolem průměru. Ověřování uvedených předpokladů se provádí numericky pomocí různých testů, korelační analýzou a graficky. Především se provádí tzv. „analýza reziduálních hodnot", což vyžaduje: ■ výpočet reziduálních hodnot *y - Jč, a hodnot xy, ■ grafické znázornění reziduálních hodnot a jejich absolutních hodnot proti hodnotám faktorů a hodnotám závisle proměnné a zjištění změn, trendů a konfigurací v těchto hodnotách; ■ prověření normality rozdělení reziduálních hodnot graficky a statistickým testem. O výsledku této kontroly má výzkumník informovat čtenáře ve výzkumné zprávě. Jestliže je splněn předpoklad nezávislosti a homogenity rozptylů, grafy reziduálních hodnot neobsahují žádné systematické konfigurace bodů (podrobněji kap. 7.3.2). 343 PŘEHLED STATISTICKÝCH METOD Předpoklad rovnosti rozptylů se často těžko ověřuje. Minimálně zkoumáme, zda je splněno,že max S[ min .v, kde Si jsou směrodatné odchylky měření v jednotlivých skupinách. Obecně lze říci, že největší vliv na validitu F-testu má předpoklad o statistické nezávislosti všech měření. Vůči poruchám ostatních předpokladů je analýza rozptylu poměrně robustní. Jestliže analýza reziduálních hodnot odhalí nehomogenitu, porušení normality nebo systematické chyby způsobené špatně sestaveným modelem, pokoušíme se tyto nedostatky ošetřit transformací závisle proměnné. Tento postup může fungovat, jestliže poměr (největší hodnota pozorován í)/( nej menší hodnota pozorování) je veliký. Nejpoužívanější transformace jsou: ■ logaritmická transformace, pokud se rozptyl zvyšuje úměrně s průměrem; ■ arcussinová transformace pro relativní četnosti; ■ druhá odmocnina pro četnosti. Poslední dvě transformace se používají při analýze dat četnostního typu. 9.1.2 Simultánní porovnávání F-test v analýze rozptylu je tzv. omnibus test. To znamená, že je zaměřen na porušení globální hypotézy rovnosti průměrů. Neříká nám nic o zdrojích diferencí mezi skupinami. Specifické otázky zodpovídá další následné zkoumání rozdílů průměrů, o němž budeme mluvit v následujících odstavcích. Obecný úvod do problematiky jsme podali v kapitole o teorii statistického testování. Rozlišujeme porovnávání předem plánované a post-hoc porovnávání (post-hoc znamená po testování předem určených hypotéz), kdy se přistupuje ke zkoumání rozdílů dvojic průměrů bez předem daného záměru. Často je výhodnější přímo odhadovat velikost rozdílu vhodným intervalem spolehlivosti a ten použít pro testování hypotézy, že mezi průměry není statisticky významný rozdíl. Interval spolehlivosti se počítá pomocí rozdílu průměrů porovnávaných skupin a reziduálni směrodatné odchylky se, která se spočítá jako odmocnina z průměrných reziduálních čtverců MSe. Plánované testy a Intervaly spolehlivosti Pokud předem plánujeme určitá porovnání, použije se modifikace /-testu podle Bonferroniho. Tento přístup jsme objasnili v kapitole 5.5. Při výpočtech použijeme upravenou hladinu významnosti a běžný postup srovnání nezávislých 344 9 ANALÝZA ROZPTYLU: POROVNÁNÍ VÍCE PRŮMĚRŮ průměrů pomocí Mestu nebo příslušného intervalu spolehlivosti. Čím více porovnávání děláme, tím musíme učinit hladinu významnosti přísnější. Bonferroniho modifikace spočívá v tom, že při provádění k porovnávání na hladině 0,05 nastavíme hladinu významnosti ve výpočtech na ď = 0,05/k. Například pro 10 srovnání a při celkové hladině významnosti 0,05 musíme provést každé srovnání na hladině 0,05/10 = 0,005. Statistické testy a výpočty intervalů spolehlivosti podle Bonferroniho potřebují při mnoha srovnáních extrémně malé hladiny významnosti, proto se nepoužívají, jestliže chceme provést všechna srovnání průměrů mezi sebou. Zvyšuje se totiž pravděpodobnost chyby II. druhu a rostou šířky intervalů spolehlivosti. Při srovnání průměru skupin i a j označíme s' = se ,/— + —, kde se = yÍMSg. V/i] n2 Pro testy a odhady použijeme intervaly spolehlivosti pro rozdíly průměrů v populacích: Pi - {Uj 6 (jč, - Xj - ta-ßs'; Xi - Xj + tď/2s') Přitom hledáme kritické hodnoty /-rozdělení s n - m stupni volnosti, kde n je počet všech pozorování a m je počet skupin. Obecně se plánované srovnání týká kontrastů. Kontrast je váženým součtem průměrů (JeJ'cn lineární kombinaci"), který je dán koeficienty (vektorem vah), jejichž součet je roven nule. Jestliže jsou jenom dvě váhy různé od nuly, jedná se o prostý rozdíl dvou průměrů. Testem kontrastu nebo pomocí intervalu spolehlivosti se přesvědčujeme, zda je zkoumaný kontrast významně různý od nuly. V případě srovnání tří průměrů mohou vektory vah mít např. podobu (-1; 0,5; 0,5) nebo (1; -1; 0). Tyto dva vektory odpovídají kontrastům Jči -0,5*2 -0,5*3 a X\ -x2. Post-hoc testy a intervaly spolehlivosti Pro zkoumání rozdílů, jež nejsou předem vymezeny na základě teorie, existuje několik post-hoc testů. Každý má trochu jiné vlastnosti. Jako obecný princip volby platí, že máme použít test více konzervativní, jinak vzroste nekontrolovatelně pravděpodobnost chyby I. druhu. Konzervativní test si udržuje za dosti volných předpokladů předpokládanou hladinu významnosti. U konzervativních testů jsou příslušná rozhodnutí zpravidla prováděna spíše na menší hladině významnosti. Scheffeho test se často používá pro kontrolu chyb I. druhu při post-hoc testování. Uplatníme ho teprve po zamítnutí nulové hypotézy rovnosti průměrů pomocí F-testu. Nechť F je kritická mez příslušného F-testu. Pro Scheffeho test použijeme upravenou mez F' = (m- 1)F, kde m je počet skupin. Udržení hladiny 345