Analýza rozptylu Povinná literatura: Mann (2016), Kapitola 12 Z čeho studovat desátou lekci? Povinná literatura: Mann (2016), kap. 12 Příprava na zkoušku: Mann (2016), kap. 12 ·Analýza rozptylu · 2 / 33 Proč se zabývat Analýzou rozptylu (ANOVA)? Odhalování skrytých rozdílů: ANOVA nám umožňuje zjistit, zda mezi více skupinami existují významné rozdíly, aniž bychom museli provádět opakované párové testy. Praktické využití: Posuzování efektivity různých výukových metod. Testování produktivity v pracovním prostředí. Porovnávání efektů různých léků nebo terapií. Jednoduchý princip: Pomocí F-testu porovnáváme rozptyl mezi skupinami a uvnitř skupin. Univerzálnost: Používá se v mnoha oblastech – od vzdělávání, přes ekonomii až po medicínu. ·Analýza rozptylu · 3 / 33 Obsah F rozdělení Jednofaktorová ANOVA ·Analýza rozptylu · 4 / 33 F rozdělení Vlastnosti F rozdělení 1. Rozdělení F je spojité a má kladnou šikmost (je zešikmené doprava). 2. Rozdělení F má dva stupně volnosti: df pro čitatel a df pro jmenovatel. 3. Hodnoty rozdělení F, označované jako F, jsou vždy nezáporné. ·Analýza rozptylu · 5 / 33 F rozdělení Tvar tří křivek F rozdělení ·Analýza rozptylu · 6 / 33 F rozdělení Příklad 1 Zadání: Najděte hodnotu F pro 8 stupňů volnosti v čitateli, 14 stupňů volnosti ve jmenovateli a pravděpodobnost 0.05 v pravém konci F rozdělení. Řešení: ·Analýza rozptylu · 7 / 33 F rozdělení Příklad 1: Řešení Řešení graficky: ·Analýza rozptylu · 8 / 33 Jednofaktorová ANOVA Obsah F rozdělení Jednofaktorová ANOVA ·Analýza rozptylu · 9 / 33 Jednofaktorová ANOVA Jednofaktorová ANOVA ANOVA (analýza rozptylu) je statistická metoda používaná k testování nulové hypotézy, že střední hodnoty tří nebo více populací jsou si rovny. Předpoklady pro jednofaktorovou ANOVA 1. Populace, ze kterých jsou vzorky vybírány, mají přibližně normální rozdělení. 2. Populace, ze kterých jsou vzorky vybírány, mají stejný rozptyl (nebo směrodatnou odchylku). 3. Vzorky odebrané z různých populací jsou náhodné a nezávislé. ·Analýza rozptylu · 10 / 33 Jednofaktorová ANOVA Testovací statistika F pro jednofaktorovou ANOVA Hodnota testovací statistiky F pro jednofaktorovou ANOVA se vypočítá jako: F = Rozptyl mezi vzorky Rozptyl uvnitř vzorků nebo F = MSB MSW Poznámka: Výpočet hodnot MSB (Mean Square Between) a MSW (Mean Square Within) je vysvětlen v Příkladu 2. ·Analýza rozptylu · 11 / 33 Jednofaktorová ANOVA Příklad 2 Zadání: Patnáct žáků čtvrté třídy bylo náhodně rozděleno do tří skupin, aby vyzkoušeli tři různé metody výuky aritmetiky. Na konci semestru všichni studenti absolvovali stejný test. Tabulka uvádí výsledky testů studentů ve třech skupinách. Vypočítejte hodnotu testovací statistiky F. Předpokládejte, že všechny požadované předpoklady uvedené na slidu 10 jsou splněny. ·Analýza rozptylu · 12 / 33 Jednofaktorová ANOVA Příklad 2: Řešení Označme x = skóre studenta k = počet různých vzorků (nebo treatmentů) ni = velikost i-tého vzorku Ti = součet hodnot v i-tém vzorku n = počet hodnot ve všech vzorcích n = n1 + n2 + n3 + . . . Σx = součet všech hodnot ve všech vzorcích Σx = T1 + T2 + T3 + . . . Σx2 = součet druhých mocnin všech hodnot ve všech vzorcích ·Analýza rozptylu · 13 / 33 Jednofaktorová ANOVA Příklad 2: Řešení Pro výpočet MSB a MSW nejprve vypočítáme: Součet čtverců mezi vzorky (between-samples sum of squares), označený jako SSB, Součet čtverců uvnitř vzorků (within-samples sum of squares), označený jako SSW. Součet SSB a SSW se nazývá celkový součet čtverců (total sum of squares) a je označen jako SST, tedy: SST = SSB + SSW Hodnoty SSB a SSW se počítají pomocí následujících vzorců. ·Analýza rozptylu · 14 / 33 Jednofaktorová ANOVA Příklad 2: Řešení Součet čtverců mezi vzorky (between-samples sum of squares), označený jako SSB, se vypočítá jako: SSB = T2 1 n1 + T2 2 n2 + T2 3 n3 + . . . − (Σx)2 n Součet čtverců uvnitř vzorků (within-samples sum of squares), označený jako SSW, se vypočítá jako: SSW = Σx2 − T2 1 n1 + T2 2 n2 + T2 3 n3 + . . . ·Analýza rozptylu · 15 / 33 Jednofaktorová ANOVA Příklad 2: Řešení Výpočty dodatečných potřebných hodnot Σx = T1 + T2 + T3 = 324 + 369 + 388 = 1081 n = n1 + n2 + n3 = 5 + 5 + 5 = 15 Σx2 = (48)2 + (73)2 + (51)2 + (65)2 + (87)2 + (55)2 + (85)2 + (70)2 + (69)2 + (90)2 + (84)2 + (68)2 + (95)2 + (74)2 + (67)2 = 80 709 ·Analýza rozptylu · 16 / 33 Jednofaktorová ANOVA Příklad 2: Řešení Výpočet součtů čtverců: SSB = (324)2 5 + (369)2 5 + (388)2 5 − (1081)2 15 = 432.1333 SSW = 80 709 − (324)2 5 + (369)2 5 + (388)2 5 = 2372.80 SST = SSB + SSW = 432.1333 + 2372.8000 = 2804.9333 ·Analýza rozptylu · 17 / 33 Jednofaktorová ANOVA Příklad 2: Řešení Výpočet MSB a MSW: MSB = SSB k − 1 a MSW = SSW n − k kde k − 1 a n − k představují stupně volnosti (df) pro čitatele a jmenovatele ve F-rozdělení. Pamatujte, že k je počet různých vzorků. Konkrétní realizace a F statistika: MSB = SSB k − 1 = 432.1333 3 − 1 = 216.0667 MSW = SSW n − k = 2372.8000 15 − 3 = 197.7333 F = MSB MSW = 216.0667 197.7333 = 1.09 ·Analýza rozptylu · 18 / 33 Jednofaktorová ANOVA Příklad 2: Řešení Vše lze zapsat do přehledné tabulky: A to i s konkrétními realizacemi: ·Analýza rozptylu · 19 / 33 Jednofaktorová ANOVA Příklad 3 Zadání: Zvažte znovu Příklad 2 týkající se výsledků 15 žáků čtvrté třídy, kteří byli náhodně rozděleni do tří skupin za účelem experimentování se třemi různými metodami výuky aritmetiky. Můžeme na hladině významnosti 1 % zamítnout nulovou hypotézu, že průměrné skóre z aritmetiky všech žáků čtvrté třídy, vyučovaných těmito třemi metodami, je stejné? Předpokládejte, že všechny požadavky potřebné pro použití jednofaktorové ANOVA jsou splněny. ·Analýza rozptylu · 20 / 33 Jednofaktorová ANOVA Příklad 3: Řešení Krok 1 H0 : µ1 = µ2 = µ3 (průměrné skóre tří skupin je stejné) H1 : Alespoň jeden průměr je rozdílný Krok 2 Protože porovnáváme průměry tří normálně rozdělených populací a všechny předpoklady potřebné pro použití procedury ANOVA jsou splněny, použijeme F-rozdělení pro tento test. Krok 3 Jednofaktorový ANOVA test je vždy jednostranný (pravostranný). Jelikož α = 0.01, pak plocha v pravém chvostu je 0.01. Stupně volnosti pro: čitatel: df = k − 1 = 3 − 1 = 2 jmenovatel: df = n − k = 15 − 3 = 12 Kritická hodnota F = 6.93 ·Analýza rozptylu · 21 / 33 Jednofaktorová ANOVA Příklad 3: Řešení Krok 4 Hodnota testové statistiky je vypočítána jako F = 1.09. Viz Excel. Krok 5 Hodnota testové statistiky F = 1.09 je menší než kritická hodnota F = 6.93. Spadá do oblasti nezamítnutí. Proto nezamítáme nulovou hypotézu. Vyvozujeme, že průměry tří populací jsou stejné. Jinými slovy, tři různé metody výuky aritmetiky nemají vliv na průměrné skóre studentů. Rozdíly v průměrných skórech našich tří vzorků mohou být způsobeny pouze chybou výběru vzorků. ·Analýza rozptylu · 22 / 33 Jednofaktorová ANOVA Příklad 4 Zadání: Čas od času, aniž by o tom zaměstnanci věděli, výzkumné oddělení banky Post Bank sleduje různé zaměstnance kvůli jejich pracovní produktivitě. Nedávno chtělo toto oddělení zjistit, zda čtyři pokladní na jedné z poboček této banky obslouží v průměru stejný počet zákazníků za hodinu. Výzkumný manažer pozoroval každého ze čtyř pokladních po určitý počet hodin. Tabulka na následujícím slidu uvádí počet zákazníků, které čtyři pokladní obsloužili během jednotlivých pozorovaných hodin. Na hladině významnosti 5 % otestujte nulovou hypotézu, že průměrný počet zákazníků obsloužených za hodinu každým ze čtyř pokladních je stejný. Předpokládejte, že jsou splněny všechny požadavky potřebné pro použití jednofaktorové analýzy rozptylu (ANOVA). ·Analýza rozptylu · 23 / 33 Jednofaktorová ANOVA Příklad 4 ·Analýza rozptylu · 24 / 33 Jednofaktorová ANOVA Příklad 4: Řešení Krok 1 H0 : µ1 = µ2 = µ3 = µ4 (Průměrný počet zákazníků obsloužených za hodinu u každého ze čtyř pokladních je stejný.) H1 : Alespoň jeden průměr je rozdílný. Krok 2 Protože porovnáváme průměry tří normálně rozdělených populací a všechny předpoklady potřebné pro použití procedury ANOVA jsou splněny, použijeme F-rozdělení pro tento test. Krok 3 Jednofaktorový ANOVA test je vždy jednostranný (pravostranný). Jelikož α = 0.05, pak plocha v pravém chvostu je 0.05. Stupně volnosti pro: čitatel: df = k − 1 = 4 − 1 = 3 jmenovatel: df = n − k = 22 − 4 = 18 Kritická hodnota F = 3.16 ·Analýza rozptylu · 25 / 33 Jednofaktorová ANOVA Příklad 4: Řešení Krok 4 Hodnota testové statistiky je postupně vypočítána jako: ·Analýza rozptylu · 26 / 33 Jednofaktorová ANOVA Příklad 4: Řešení Σx = T1 + T2 + T3 + T4 = 108 + 87 + 93 + 110 = 398 n = n1 + n2 + n3 + n4 = 5 + 6 + 6 + 5 = 22 Σx2 = (19)2 + (21)2 + · · · + (26)2 + (20)2 = 7614 SSB = T2 1 n1 + T2 2 n2 + T2 3 n3 + T2 4 n4 − (Σx)2 n = (108)2 5 + (87)2 6 + (93)2 6 + (110)2 5 − (398)2 22 = 255.6182 SSW = Σx2 − T2 1 n1 + T2 2 n2 + T2 3 n3 + T2 4 n4 = 7614 − (108)2 5 + (87)2 6 + (93)2 6 + (110)2 5 = 158.2000 MSB = SSB k − 1 = 255.6182 4 − 1 = 85.2061 MSW = SSW n − k = 158.2000 22 − 4 = 8.7889 F = MSB MSW = 85.2061 8.7889 = 9.69 ·Analýza rozptylu · 27 / 33 Jednofaktorová ANOVA Příklad 4: Řešení Krok 4 Hodnota testové statistiky je vypočítána jako F = 9.69. ·Analýza rozptylu · 28 / 33 Jednofaktorová ANOVA Příklad 4: Řešení Krok 5 Hodnota testové statistiky F = 9.69 je menší než kritická hodnota F = 3.16. Spadá do oblasti zamítnutí. Proto zamítáme nulovou hypotézu. Závěrem je, že průměrný počet zákazníků obsloužených za hodinu každým ze čtyř pokladníků není stejný. ·Analýza rozptylu · 29 / 33 Jednofaktorová ANOVA Shrnutí přednášky: F rozdělení Jednofaktorová ANOVA ·Analýza rozptylu · 30 / 33 Jednofaktorová ANOVA Z čeho studovat na zkoušku? Učebnice Mann (2016), Kapitola 1-12 Přednášky Mann (2016), Kapitola 1-12 Leaflety Materiály ke cvičení 1-12 Koncepty a procedury Materiály ke cvičení 2-12 Sbírky úloh Materiály ke cvičení 2-12 ·Analýza rozptylu · 31 / 33 Jednofaktorová ANOVA Děkuji za pozornost! ·Analýza rozptylu · 32 / 33 Jednofaktorová ANOVA Nabídka navazujících kurzů Bakalářské kurzy ZAEK Základy ekonometrie STAF Statistics for finance CARA Časové řady Magisterské kurzy AVED Analýza a vizualizace ekonomických dat APIS Aplikované identifikační strategie AIIF AI in Finance APFE Applied financial econometrics BAAN Bayesiánská analýza EKON Ekonometrie VSM Vícerozměrné statistické metody ... a další :) ·Analýza rozptylu · 33 / 33