Téma 10: Analýza rozptylu jednoduchého třídění Vzorový úkol: V jisté továrně se měřil čas, který potřeboval každý ze tří dělníků k uskutečnění téhož pracovního úkonu. Čas v minutách: 1. dělník: 3,6 3,8 3,7 3,5, 2. dělník: 4,3 3,9 4,2 3,9 4,4 4,7, 3. dělník: 4,2 4,5 4,0 4,1 4,5 4,4. Na hladině významnosti 0,05 testujte hypotézu, že průměrné výkony těchto tří dělníků jsou stejné. Zamítnete-li nulovou hypotézu, určete, výkony kterých dělníků se liší na dané hladině významnosti. Návod: Vytvoříme datový soubor se dvěma proměnnými (X a ID) a 16 případy. Do 1. sloupce napíšeme změřené časy, do 2. sloupce dáme čtyřikrát jedničku, šestkrát dvojku a šestkrát trojku. Nejprve ověříme předpoklad o normalitě všech tří výběrů: Grafy – 2D Grafy – Normální prvaděpodobnostní grafy – Proměnné X – OK – na záložce Kategorizovaný zapneme kategorii X a vybereme proměnnou ID. Vidíme, že rozložení dat se příliš neodlišuje od normálního rozložení. Zjistíme rozsahy, průměry a směrodatné odchylky výkonů tří dělníků. Statistika – Základní statsitiky a tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné Závislé X, Grupovací ID – OK – Výpočet: Tabulka statistik: Nyní zobrazíme krabicové diagramy výkonů tří dělníků: Návrat do Statistiky dle skupin – Kategoriz. krabicový graf. Z krabicových diagramů vyplývá, že výkony 2. a 3. dělníka se liší jen málo, zatímco 1. dělník pracuje mnohem rychleji. Před provedením analýzy rozptylu je nutné na hladině významnosti 0,05 testovat hypotézu o homogenitě rozptylů. Pomocí Levenova testu testujeme H[0]: σ[1]^2 = σ[2]^2 = σ[3]^2 proti H[1]: aspoň jedna dvojice rozptylů se liší. Návrat do Statistiky dle skupin – na záložce ANOVA& testy vybereme Leveneovy testy Testová statistika Levenova testu se realizuje hodnotou 1,5142, počet stupňů volnosti čitatele je 2, jmenovatele 13, odpovídající p-hodnota je 0,2564, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. Nyní pomocí jednofaktorové analýzy rozptylu testujeme H[0]: μ[1] = μ[2] = μ[3] proti H[1]: aspoň jedna dvojice středních hodnot se liší. Návrat do Statistiky dle skupin – na záložce ANOVA& testy vybereme Analýza arozptylu. Ve výstupní tabulce je použito tohoto značení: SČ efekt … skupinový součet čtverců S[A], SV efekt … skupinový počet stupňů volnosti f[A] = r - 1, PČ efekt … S[A]/(r-1), SČ chyba … reziduální součet čtverců S[E], SV chyba … reziduální počet stupňů volnosti f[E] = n – r, PČ chyba … S[E]/(n-r), F … testová statistika Protože p-hodnota = 0,00268, zamítá se na hladině významnosti 0,05 hypotézu o shodě středních hodnot. Nyní nás bude zajímat, které dvojice dělníků se liší na zvolené hladině významnosti. Použijeme Scheffého metodu mnohonásobného porovnávání. Návrat do Statistiky dle skupin – Post – hoc – Schefféův test: Výsledek Scheffého metody ukazuje, že na hladině významnosti 0,05 se liší výkony dělníků (1,2), (1,3) a neliší se (2,3). Úkoly k samostatnému řešení: Úkol 1.: Studenti byli vyučováni předmětu za využití pěti pedagogických metod: tradiční způsob, programová výuka, audiotechnika, audiovizuální technika a vizuální technika. Z každé skupiny byl vybrán náhodný vzorek studentů a všichni byli podrobeni témuž písemnému testu. Na hladině významnosti 0,05 testujte hypotézu, že průměrné znalosti všech studentů jsou stejné a nezávisí na použité pedagogické metodě. V případě zamítnutí hypotézy zjistěte, které výběry se liší na hladině významnosti 0,05. metoda počet bodů tradiční 76,2 48,3 85,1 63,7 91,6 87,2 programová 85,2 74,3 76,5 80,3 67,4 67,9 72,1 60,4 audio 67,3 60,1 55,4 72,3 40 audiovizuální 75,8 81,6 90,3 78 67,8 57,6 vizuální 50,5 70,2 88,8 67,1 77,7 73,9 Výsledek: Na hladině významnosti 0,05 se nulová hypotéza nezamítá. Úkol 2.: Pan Novák může cestovat z místa bydliště do místa pracoviště třemi různými způsoby: tramvají (způsob A), autobusem (způsob B) a metrem s následným přestupem na tramvaj (způsob C). Máme k dispozici jeho naměřené časy cestování do práce v době ranní špičky (včetně čekání na příslušný spoj) v minutách. Způsob A: 32, 39, 42, 37, 34, 38 Způsob B: 30, 34, 28, 26, 32 Způsob C: 40, 37, 31, 39, 38, 33, 34 Pro všechny tři způsoby dopravy vypočtěte průměrné časy cestování. Na hladině významnosti 0,05 testujte hypotézu, že doba cestování do práce nezávisí na způsobu dopravy. V případě zamítnutí nulové hypotézy zjistěte, které způsoby dopravy do práce se od sebe liší na hladině významnosti 0,05. Výsledek: Průměrný čas cestování tramvají je 37 min, autobusem 30 min a metrem s přestupem na tramvaj je 36 min. Předpoklady normality a homogenity rozptylů všech tří výběrů jsou oprávněné. Na hladině významnosti 0,05 se zamítá hypotéza o shodě středních hodnot časů cestování do práce (testová statistika se realizuje hodnotou 6,7151, odpovídající p-hodnota je 0,0083), na dané hladině významnosti se liší způsoby A a B, B a C. Úkol 4.: Je dána neúplná tabulka ANOVA. Místo otazníků doplňte chybějící čísla a na hladině významnosti 0,05 testujte hypotézu o shodě středních hodnot. zdroj variability součet čtverců stupně volnosti podíl F[A] skupiny ? 2 ? ? reziduální 16,033 ? ? - celkový 17,301 30 - - Výsledek: zdroj variability součet čtverců stupně volnosti podíl F[A] skupiny 1,268 2 0,634 1,1072 reziduální 16,033 28 0,5726 - celkový 17,301 30 - - Kritický obor: . Protože se nerealizuje v kritickém oboru, H[0] nezamítáme na hladině významnosti 0,05. Úkol 5.: Jsou dány čtyři nezávislé náhodné výběry postupně z rozložení , , , , přičemž každý z nich má rozsah 6. Na hladině významnosti 0,05 testujte hypotézu o shodě středních hodnot, je-li známo, že celkový součet čtverců je 114 a skupinový součet čtverců je 46,5. Výsledek: S[E] = S[T] – S[A] = 114 – 46,5 = 67,5, testová statistika = 4,5926, příslušný kvantil F[0,95](3,20) = 3,0984, rozhodnutí o nulové hypotéze: zamítáme na hladině významnosti 0,05.