Cvičení 1: Analýza rozptylu jednoduchého třídění


Úkol 1.: V jisté továrně se měřil čas, který potřeboval každý ze tří dělníků k uskutečnění téhož
pracovního úkonu. Čas v minutách:

1. dělník: 3,6   3,8   3,7   3,5

2. dělník: 4,3   3,9   4,2   3,9   4,4   4,7

3. dělník: 4,2   4,5   4,0   4,1   4,5   4,4.


Na hladině významnosti 0,05 testujte hypotézu, že výkony těchto tří dělníků jsou stejné.
Zamítnete-li nulovou hypotézu, určete, výkony kterých dělníků se liší na dané hladině významnosti
0,05.


Návod:

Úloha vede na analýzu rozptylu jednoduchého třídění. Postupujeme podle skript Základní statistické
metody, odstavec 8.1.

Načteme datový soubor cas_delniku.sta. Proměnná X obsahuje zjištěné časy, proměnná ID nabývá
hodnoty 1 pro 1. dělníka, hodnoty 2 pro 2. dělníka a hodnoty 3 pro 3. dělníka.

Statistiky – Základní statistiky/tabulky – Rozklad & jednofakt. ANOVA – Proměnné - Závislé X,
Grupovací ID, OK, Kódy pro grupovací proměnné – Vše, OK,  Výpočet: Tabulka statistik (zobrazí se
průměry, směrodatné odchylky a rozsahy všech tří výběrů).


Komentář: Na uskutečnění daného pracovního úkonu potřebuje nejkratší čas 1. dělník. Podává také
nejvyrovnanější výkony – směrodatná odchylka proměnné X je u něj nejmenší. Naopak nejpomalejší je
3. dělník.


Nyní vytvoříme krabicové diagramy: Návrat do Statistiky podle skupin – Kategoriz. krabicový graf
(současné zobrazení krabicových diagramů pro všechny tři výběry )


Pomocí N-P plot orientačně posoudíme normalitu všech tří výběrů:

Návrat do Statistiky podle skupin – ANOVA & testy – Kategoriz. norm. pravd. grafy

Komentář: Ve všech třech případech se tečky jen málo odchylují od přímky, lze soudit, že data
pocházejí z normálního rozložení.


Provedení testu o shodě rozptylů:

Návrat do Statistiky podle skupin – Leveneovy testy


Komentář: Testová statistika Levenova testu nabývá hodnoty 1,5142, stupně volnosti čitatele = 2,
jmenovatele = 13, odpovídající  p-hodnota = 0,256, tedy na hladině významnosti 0,05 se nezamítá
hypotézu o shodě rozptylů.


Provedení testu o shodě středních hodnot:

Návrat do Statistiky podle skupin – Analýza rozptylu.


Komentář: Skupinový součet čtverců S[A] = 1,1177, počet stupňů volnosti f[A] = 2, reziduální součet
čtverců S[E] = 0,7517, počet stupňů volnosti f[E] = 13, testová statistika  nabývá hodnoty 9,6653,
počet stupňů volnosti čitatele = 2, jmenovatele = 13, odpovídající  p-hodnota = 0,00268, tedy na
hladině významnosti 0,05 se zamítá hypotéza o shodě středních hodnot .


Provedení metody mnohonásobného porovnávání (Scheffého test – viz skripta Základní statistické
metody, věta 8.2.2.1.):

Návrat do do Statistiky podle skupin – Post- hoc – Schefféův test.


Komentář: Tabulka obsahuje p-hodnoty pro testování hypotéz o shodě středních hodnot všech dvojic
výběrů. Výsledek Scheffého metody ukazuje, že na hladině významnosti 0,05 se liší výkony dělníků
(1,2), (1,3) a neliší se (2,3).


Úkol 2.: V cestovní kanceláři zkoumali u 609 náhodně vybraných klientů, o jaké ubytování měli zájem
(varianty apartmán, bungalov, hotel, stan) a zjišťovali též pohlaví klienta.


Typ ubytování

             apartmán

                     bungalov

                             hotel

                                  stan

Počet žen

             12

                     27

                             208

                                  33

Počet mužů

             100

                     68

                             36

                                  152


Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozdíly v typech ubytování mezi muži
a ženami jsou způsobeny pouze náhodnými vlivy.


Návod:

Postupujeme podle skript Základní statistické metody, Věta 8.5.1.1. Testujeme hypotézu H[0]:  proti
alternativní hypotéze H[1]: aspoň jedna dvojice parametrů je různá.

Načteme datový soubor klienti_CK.sta. Proměnná POHLAVI obsahuje hodnotu 0 pro ženu, 1 pro muže.
Proměnná TYP UBYTOVANI má hodnotu 1 pro apartmán, hodnotu 2 pro bungalov, hodnotu 3 pro hotel a
hodnotu 4 pro stan.

Nejprve zjistíme podíly mužů v jednotlivých typech ubytování.

Statistiky – Základní statistiky/tabulky - Rozklad & jednofakt. ANOVA - OK - Proměnné - Závislé
POHLAVI, Grupovaci TYP UBYTOVANI, OK, Kódy pro grupovací proměnné – Vše, OK – Popisné statistiky -
Výpočet: Tabulka statistik – ponecháme zaškrtnuto N - OK.


Komentář: Vidíme, že z těch klientů, kteří se ubytovali v apartmánu, bylo 89,3% mužů, mezi
obyvateli bungalovů bylo 60,3% mužů, z ubytovaných v hotelu bylo mužů pouze 14,7%  a z těch, kteří
bydleli pod stanem, bylo 82,1% mužů.


Ověříme splnění podmínek dobré aproximace: n[j]m[*  ]> 5 pro všechna j = 1, ..., r. Vážený průměr
m[*] se nachází v posledním řádku výstupní Rozkladové tabulky popisných statistik. Jeho hodnotu
okopírujeme do políček pro průměry relativní četnosti ubytovaných v jednotlivých typech ubytování,
poslední řádek odstraníme a k tabulce přidáme jednu novou proměnnou, do jejíhož Dlouhého jména
napíšeme =v2*v3.


Komentář: Vidíme, že podmínky dobré aproximace jsou splněny.


Dále provedeme testování hypotézy o shodě parametrů čtyř alternativních rozložení.

Statistiky – Základní statistiky/tabulky – Kontingenční tabulky – OK -  Specif. tabulky – List 1
POHLAVI, List 2 TYP UBYTOVANI, OK– Možnosti - Statistiky dvourozm tabulek - zaškrtneme Pearson &
M-L Chi –square – Detailní výsledky – Detailní 2-rozm. tabulky


Komentář: Testová statistika Q (viz skripta Základní statistické metody, vzorec 8.15.) se realizuje
hodnotou 267,6070, počet stupňů volnosti je 3, odpovídající p-hodnota = 0,0000, tedy na
asymptotické hladině významnosti 0,05 hypotézu H[0] zamítáme. S rizikem omylu nejvýše 0,05 jsme
tedy prokázali, že rozdíly v podílech klientů a klientek ubytovaných v různých typech ubytovacích
zařízení nelze vysvětlit pouze náhodnými vlivy.


Nakonec provedeme metodu mnohonásobného porovnávání, abychom zjistili, které dvojice typů ubytování
se liší na asymptotické hladině významnosti 0,05.

Návrat do do Statistiky podle skupin – Post- hoc – Schefféův test.


Komentář: Tabulka obsahuje p-hodnoty pro testování hypotéz o shodě středních hodnot všech dvojic
výběrů. Výsledek Scheffého metody ukazuje, že z hlediska podílu mužů se na hladině významnosti 0,05
neliší pouze ubytování v apartmánu a ve stanu.


Příklady k samostatnému řešení


Příklad 1.: Studenti byli vyučováni předmětu za využití pěti pedagogických metod: tradiční způsob,
programová výuka, audiotechnika, audiovizuální technika a vizuální technika.

Z každé skupiny byl vybrán náhodný vzorek studentů a všichni byli podrobeni témuž písemnému testu.
Výsledky testu:


metoda                 počet bodů

tradiční                76,2   48,3   85,1   63,7   91,6   87,2

programová         85,2   74,3   76,5   80,3   67,4   67,9   72,1   60,4

audio                   67,3   60,1   55,4   72,3   40

audiovizuální      75,8   81,6   90,3   78      67,8   57,6

vizuální               50,5   70,2   88,8   67,1   77,7   73,9


Na hladině významnosti 0,05 testujte hypotézu, že znalosti všech studentů jsou stejné a nezávisí na
použité pedagogické metodě. V případě zamítnutí hypotézy zjistěte, které výběry se liší na hladině
významnosti 0,05.


Řešení:

Načteme datový soubor pet_metod.sta. Proměnná BODY obsahuje dosažené počty bodů a proměnná METODA
označení příslušné pedagogické metody.


Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů:


Komentář: Nejlepších výsledků dosahují studenti vyučovaní tradiční metodou, podávají však nejméně
vyrovnané výkony (počty bodů v této skupině mají největší směrodatnou odchylku). Naopak nejhoršího
výsledku dosáhli studenti vyučovaní audio metodou. Nejvyrovnanější výkony pozorujeme u studentů
vyučovaných programovou metodou.


Vytvoříme krabicové diagramy:


Pomocí N-P grafů vizuálně posoudíme normalitu všech pěti výběrů:


Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech pěti případech
oprávněný.


Provedeme Levenův test (testování homogenity rozptylů všech pěti výběrů)


Komentář: Testová statistika F se realizuje hodnotou 0,819, počet stupňů volnosti čitatele = 4,
jmenovatele = 26, odpovídající p-hodnota = 0,5248, na hladině významnosti 0,05 tedy nezamítáme
hypotézu o shodě rozptylů.


Budeme testovat hypotézu o shodě středních hodnot všech pěti výběrů:


Komentář: Testová statistika F se realizuje hodnotou 1,6236, počet stupňů volnosti čitatele = 4,
jmenovatele = 26, odpovídající p-hodnota = 0,1983, na hladině významnosti 0,05 tedy nezamítáme
hypotézu o shodě středních hodnot. Znamená to, že s rizikem omylu nejvýše 5% se neprokázal rozdíl
v účinnosti jednotlivých pedagogických metod..


Příklad 2.:  Pan Novák může cestovat z místa bydliště do místa pracoviště třemi různými způsoby:
tramvají (způsob A), autobusem (způsob B) a metrem s následným přestupem na tramvaj (způsob C).
Máme k dispozici jeho naměřené časy cestování do práce v době ranní špičky (včetně čekání na
příslušný spoj) v minutách:


způsob A: 32, 39, 42, 37, 34, 38:

způsob B: 30, 34, 28, 26, 32,

způsob C: 40, 37, 31, 39, 38, 33, 34


Pro všechny tři způsoby dopravy vypočtěte průměrné časy cestování. Na hladině významnosti 0,05
testujte hypotézu, že doba cestování do práce nezávisí na způsobu dopravy. V případě zamítnutí
nulové hypotézy zjistěte, které způsoby dopravy do práce se od sebe liší na hladině významnosti
0,05.


Řešení:

Načteme datový soubor doby_cestovani.sta. Proměnná CAS obsahuje zjištěné doby cestování a proměnná
ID označení příslušného způsoby dopravy.


Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů:


Komentář: Nejkratší průměrnou dobu do zaměstnání pan Novák cestuje, když použije autobus, naopak
nejdéle cestuje tramvají  Variabilita dob jednotlivých způsobů cestování je vcelku vyrovnaná.


Vytvoříme krabicové diagramy:


Pomocí N-P grafů vizuálně posoudíme normalitu všech tří výběrů:


Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech třech případech
oprávněný.


Provedeme Levenův test (testování homogenity rozptylů všech tří výběrů)


Komentář: Testová statistika F se realizuje hodnotou 0,1054, počet stupňů volnosti čitatele = 2,
jmenovatele = 15, odpovídající p-hodnota = 0,9007, na hladině významnosti 0,05 tedy nezamítáme
hypotézu o shodě rozptylů.


Budeme testovat hypotézu o shodě středních hodnot všech tří výběrů:


Komentář: Testová statistika F se realizuje hodnotou 6,7151, počet stupňů volnosti čitatele = 2,
jmenovatele = 15, odpovídající p-hodnota = 0,0083, na hladině významnosti 0,05 tedy zamítáme
hypotézu o shodě středních hodnot. Znamená to, že s rizikem omylu nejvýše 5% se prokázal rozdíl
v dobách cestování pana Nováka do zaměstnání  autobusem, tramvají a metrem.


Scheffého metodou mnohonásobného porovnávání zjistíme, které dvojice způsobů cestování do
zaměstnání se liší na hladině významnosti 0,05:


Komentář: Z tabulky vyplývá, že s rizikem omylu nejvýše 5% se liší cestování tramvají a autobusem a
dále cestování autobusem a metrem.