Cvičení 1: Analýza rozptylu jednoduchého třídění Úkol 1.: V jisté továrně se měřil čas, který potřeboval každý ze tří dělníků k uskutečnění téhož pracovního úkonu. Čas v minutách: 1. dělník: 3,6 3,8 3,7 3,5 2. dělník: 4,3 3,9 4,2 3,9 4,4 4,7 3. dělník: 4,2 4,5 4,0 4,1 4,5 4,4. Na hladině významnosti 0,05 testujte hypotézu, že výkony těchto tří dělníků jsou stejné. Zamítnete-li nulovou hypotézu, určete, výkony kterých dělníků se liší na dané hladině významnosti 0,05. Návod: Úloha vede na analýzu rozptylu jednoduchého třídění. Postupujeme podle skript Základní statistické metody, odstavec 8.1. Načteme datový soubor cas_delniku.sta. Proměnná X obsahuje zjištěné časy, proměnná ID nabývá hodnoty 1 pro 1. dělníka, hodnoty 2 pro 2. dělníka a hodnoty 3 pro 3. dělníka. Statistiky – Základní statistiky/tabulky – Rozklad & jednofakt. ANOVA – Proměnné - Závislé X, Grupovací ID, OK, Kódy pro grupovací proměnné – Vše, OK, Výpočet: Tabulka statistik (zobrazí se průměry, směrodatné odchylky a rozsahy všech tří výběrů). Komentář: Na uskutečnění daného pracovního úkonu potřebuje nejkratší čas 1. dělník. Podává také nejvyrovnanější výkony – směrodatná odchylka proměnné X je u něj nejmenší. Naopak nejpomalejší je 3. dělník. Nyní vytvoříme krabicové diagramy: Návrat do Statistiky podle skupin – Kategoriz. krabicový graf (současné zobrazení krabicových diagramů pro všechny tři výběry ) Pomocí N-P plot orientačně posoudíme normalitu všech tří výběrů: Návrat do Statistiky podle skupin – ANOVA & testy – Kategoriz. norm. pravd. grafy Komentář: Ve všech třech případech se tečky jen málo odchylují od přímky, lze soudit, že data pocházejí z normálního rozložení. Provedení testu o shodě rozptylů: Návrat do Statistiky podle skupin – Leveneovy testy Komentář: Testová statistika Levenova testu nabývá hodnoty 1,5142, stupně volnosti čitatele = 2, jmenovatele = 13, odpovídající p-hodnota = 0,256, tedy na hladině významnosti 0,05 se nezamítá hypotézu o shodě rozptylů. Provedení testu o shodě středních hodnot: Návrat do Statistiky podle skupin – Analýza rozptylu. Komentář: Skupinový součet čtverců S[A] = 1,1177, počet stupňů volnosti f[A] = 2, reziduální součet čtverců S[E] = 0,7517, počet stupňů volnosti f[E] = 13, testová statistika nabývá hodnoty 9,6653, počet stupňů volnosti čitatele = 2, jmenovatele = 13, odpovídající p-hodnota = 0,00268, tedy na hladině významnosti 0,05 se zamítá hypotéza o shodě středních hodnot . Provedení metody mnohonásobného porovnávání (Scheffého test – viz skripta Základní statistické metody, věta 8.2.2.1.): Návrat do do Statistiky podle skupin – Post- hoc – Schefféův test. Komentář: Tabulka obsahuje p-hodnoty pro testování hypotéz o shodě středních hodnot všech dvojic výběrů. Výsledek Scheffého metody ukazuje, že na hladině významnosti 0,05 se liší výkony dělníků (1,2), (1,3) a neliší se (2,3). Úkol 2.: V cestovní kanceláři zkoumali u 609 náhodně vybraných klientů, o jaké ubytování měli zájem (varianty apartmán, bungalov, hotel, stan) a zjišťovali též pohlaví klienta. Typ ubytování apartmán bungalov hotel stan Počet žen 12 27 208 33 Počet mužů 100 68 36 152 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozdíly v typech ubytování mezi muži a ženami jsou způsobeny pouze náhodnými vlivy. Návod: Postupujeme podle skript Základní statistické metody, Věta 8.5.1.1. Testujeme hypotézu H[0]: proti alternativní hypotéze H[1]: aspoň jedna dvojice parametrů je různá. Načteme datový soubor klienti_CK.sta. Proměnná POHLAVI obsahuje hodnotu 0 pro ženu, 1 pro muže. Proměnná TYP UBYTOVANI má hodnotu 1 pro apartmán, hodnotu 2 pro bungalov, hodnotu 3 pro hotel a hodnotu 4 pro stan. Nejprve zjistíme podíly mužů v jednotlivých typech ubytování. Statistiky – Základní statistiky/tabulky - Rozklad & jednofakt. ANOVA - OK - Proměnné - Závislé POHLAVI, Grupovaci TYP UBYTOVANI, OK, Kódy pro grupovací proměnné – Vše, OK – Popisné statistiky - Výpočet: Tabulka statistik – ponecháme zaškrtnuto N - OK. Komentář: Vidíme, že z těch klientů, kteří se ubytovali v apartmánu, bylo 89,3% mužů, mezi obyvateli bungalovů bylo 60,3% mužů, z ubytovaných v hotelu bylo mužů pouze 14,7% a z těch, kteří bydleli pod stanem, bylo 82,1% mužů. Ověříme splnění podmínek dobré aproximace: n[j]m[* ]> 5 pro všechna j = 1, ..., r. Vážený průměr m[*] se nachází v posledním řádku výstupní Rozkladové tabulky popisných statistik. Jeho hodnotu okopírujeme do políček pro průměry relativní četnosti ubytovaných v jednotlivých typech ubytování, poslední řádek odstraníme a k tabulce přidáme jednu novou proměnnou, do jejíhož Dlouhého jména napíšeme =v2*v3. Komentář: Vidíme, že podmínky dobré aproximace jsou splněny. Dále provedeme testování hypotézy o shodě parametrů čtyř alternativních rozložení. Statistiky – Základní statistiky/tabulky – Kontingenční tabulky – OK - Specif. tabulky – List 1 POHLAVI, List 2 TYP UBYTOVANI, OK– Možnosti - Statistiky dvourozm tabulek - zaškrtneme Pearson & M-L Chi –square – Detailní výsledky – Detailní 2-rozm. tabulky Komentář: Testová statistika Q (viz skripta Základní statistické metody, vzorec 8.15.) se realizuje hodnotou 267,6070, počet stupňů volnosti je 3, odpovídající p-hodnota = 0,0000, tedy na asymptotické hladině významnosti 0,05 hypotézu H[0] zamítáme. S rizikem omylu nejvýše 0,05 jsme tedy prokázali, že rozdíly v podílech klientů a klientek ubytovaných v různých typech ubytovacích zařízení nelze vysvětlit pouze náhodnými vlivy. Nakonec provedeme metodu mnohonásobného porovnávání, abychom zjistili, které dvojice typů ubytování se liší na asymptotické hladině významnosti 0,05. Návrat do do Statistiky podle skupin – Post- hoc – Schefféův test. Komentář: Tabulka obsahuje p-hodnoty pro testování hypotéz o shodě středních hodnot všech dvojic výběrů. Výsledek Scheffého metody ukazuje, že z hlediska podílu mužů se na hladině významnosti 0,05 neliší pouze ubytování v apartmánu a ve stanu. Příklady k samostatnému řešení Příklad 1.: Studenti byli vyučováni předmětu za využití pěti pedagogických metod: tradiční způsob, programová výuka, audiotechnika, audiovizuální technika a vizuální technika. Z každé skupiny byl vybrán náhodný vzorek studentů a všichni byli podrobeni témuž písemnému testu. Výsledky testu: metoda počet bodů tradiční 76,2 48,3 85,1 63,7 91,6 87,2 programová 85,2 74,3 76,5 80,3 67,4 67,9 72,1 60,4 audio 67,3 60,1 55,4 72,3 40 audiovizuální 75,8 81,6 90,3 78 67,8 57,6 vizuální 50,5 70,2 88,8 67,1 77,7 73,9 Na hladině významnosti 0,05 testujte hypotézu, že znalosti všech studentů jsou stejné a nezávisí na použité pedagogické metodě. V případě zamítnutí hypotézy zjistěte, které výběry se liší na hladině významnosti 0,05. Řešení: Načteme datový soubor pet_metod.sta. Proměnná BODY obsahuje dosažené počty bodů a proměnná METODA označení příslušné pedagogické metody. Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů: Komentář: Nejlepších výsledků dosahují studenti vyučovaní tradiční metodou, podávají však nejméně vyrovnané výkony (počty bodů v této skupině mají největší směrodatnou odchylku). Naopak nejhoršího výsledku dosáhli studenti vyučovaní audio metodou. Nejvyrovnanější výkony pozorujeme u studentů vyučovaných programovou metodou. Vytvoříme krabicové diagramy: Pomocí N-P grafů vizuálně posoudíme normalitu všech pěti výběrů: Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech pěti případech oprávněný. Provedeme Levenův test (testování homogenity rozptylů všech pěti výběrů) Komentář: Testová statistika F se realizuje hodnotou 0,819, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,5248, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě rozptylů. Budeme testovat hypotézu o shodě středních hodnot všech pěti výběrů: Komentář: Testová statistika F se realizuje hodnotou 1,6236, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,1983, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě středních hodnot. Znamená to, že s rizikem omylu nejvýše 5% se neprokázal rozdíl v účinnosti jednotlivých pedagogických metod.. Příklad 2.: Pan Novák může cestovat z místa bydliště do místa pracoviště třemi různými způsoby: tramvají (způsob A), autobusem (způsob B) a metrem s následným přestupem na tramvaj (způsob C). Máme k dispozici jeho naměřené časy cestování do práce v době ranní špičky (včetně čekání na příslušný spoj) v minutách: způsob A: 32, 39, 42, 37, 34, 38: způsob B: 30, 34, 28, 26, 32, způsob C: 40, 37, 31, 39, 38, 33, 34 Pro všechny tři způsoby dopravy vypočtěte průměrné časy cestování. Na hladině významnosti 0,05 testujte hypotézu, že doba cestování do práce nezávisí na způsobu dopravy. V případě zamítnutí nulové hypotézy zjistěte, které způsoby dopravy do práce se od sebe liší na hladině významnosti 0,05. Řešení: Načteme datový soubor doby_cestovani.sta. Proměnná CAS obsahuje zjištěné doby cestování a proměnná ID označení příslušného způsoby dopravy. Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů: Komentář: Nejkratší průměrnou dobu do zaměstnání pan Novák cestuje, když použije autobus, naopak nejdéle cestuje tramvají Variabilita dob jednotlivých způsobů cestování je vcelku vyrovnaná. Vytvoříme krabicové diagramy: Pomocí N-P grafů vizuálně posoudíme normalitu všech tří výběrů: Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech třech případech oprávněný. Provedeme Levenův test (testování homogenity rozptylů všech tří výběrů) Komentář: Testová statistika F se realizuje hodnotou 0,1054, počet stupňů volnosti čitatele = 2, jmenovatele = 15, odpovídající p-hodnota = 0,9007, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě rozptylů. Budeme testovat hypotézu o shodě středních hodnot všech tří výběrů: Komentář: Testová statistika F se realizuje hodnotou 6,7151, počet stupňů volnosti čitatele = 2, jmenovatele = 15, odpovídající p-hodnota = 0,0083, na hladině významnosti 0,05 tedy zamítáme hypotézu o shodě středních hodnot. Znamená to, že s rizikem omylu nejvýše 5% se prokázal rozdíl v dobách cestování pana Nováka do zaměstnání autobusem, tramvají a metrem. Scheffého metodou mnohonásobného porovnávání zjistíme, které dvojice způsobů cestování do zaměstnání se liší na hladině významnosti 0,05: Komentář: Z tabulky vyplývá, že s rizikem omylu nejvýše 5% se liší cestování tramvají a autobusem a dále cestování autobusem a metrem.