Cvičení 7: Parametrické úlohy o více nezávislých náhodných výběrech Úkol 1.: V jisté továrně se měřil čas, který potřeboval každý ze tří dělníků k uskutečnění téhož pracovního úkonu. Čas v minutách: 1. dělník: 3,6 3,8 3,7 3,5 2. dělník: 4,3 3,9 4,2 3,9 4,4 4,7 3. dělník: 4,2 4,5 4,0 4,1 4,5 4,4. Na hladině významnosti 0,05 testujte hypotézu, že výkony těchto tří dělníků jsou stejné. Zamítnete-li nulovou hypotézu, určete, výkony kterých dělníků se liší na dané hladině významnosti 0,05. Návod: Úloha vede na analýzu rozptylu jednoduchého třídění. Postupujeme podle skript Základní statistické metody, odstavec 8.1. Načteme datový soubor cas_delniku.sta. Proměnná X obsahuje zjištěné časy, proměnná ID nabývá hodnoty 1 pro 1. dělníka, hodnoty 2 pro 2. dělníka a hodnoty 3 pro 3. dělníka. Statistiky – Základní statistiky/tabulky – Rozklad & jednofakt. ANOVA – Proměnné - Závislé X, Grupovací ID, OK, Kódy pro grupovací proměnné – Vše, OK, Výpočet: Tabulka statistik (zobrazí se průměry, směrodatné odchylky a rozsahy všech tří výběrů). Rozkladová tabulka popisných statistik (cas_delniku.sta) N=16 (V seznamu záv. prom. nejsou ChD) ID X průměr X N X Sm.odch. 1 3,650000 4 0,129099 2 4,233333 6 0,307679 3 4,283333 6 0,213698 Vš.skup. 4,106250 16 0,353023 Komentář: Na uskutečnění daného pracovního úkonu potřebuje nejkratší čas 1. dělník. Podává také nejvyrovnanější výkony – směrodatná odchylka proměnné X je u něj nejmenší. Naopak nejpomalejší je 3. dělník. Nyní vytvoříme krabicové diagramy: Návrat do Statistiky podle skupin – Kategoriz. krabicový graf (současné zobrazení krabicových diagramů pro všechny tři výběry ) Průměr Průměr±SmOdch Průměr±1,96*SmOdch 1 2 3 ID 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6 4,8 5,0 X Pomocí N-P plot orientačně posoudíme normalitu všech tří výběrů: Návrat do Statistiky podle skupin – ANOVA & testy – Kategoriz. norm. pravd. grafy ID: 1 3,4 3,6 3,8 4,0 4,2 4,4 4,6 4,8 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Očekávanánormálníhodnota ID: 2 3,4 3,6 3,8 4,0 4,2 4,4 4,6 4,8 ID: 3 3,4 3,6 3,8 4,0 4,2 4,4 4,6 4,8 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Očekávanánormálníhodnota Komentář: Ve všech třech případech se tečky jen málo odchylují od přímky, lze soudit, že data pocházejí z normálního rozložení. Provedení testu o shodě rozptylů: Návrat do Statistiky podle skupin – Leveneovy testy Leveneův test homogenity rozpylů (cas_delniku.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 0,042708 2 0,021354 0,183333 13 0,014103 1,514205 0,256356 Komentář: Testová statistika Levenova testu nabývá hodnoty 1,5142, stupně volnosti čitatele = 2, jmenovatele = 13, odpovídající p-hodnota = 0,256, tedy na hladině významnosti 0,05 se nezamítá hypotézu o shodě rozptylů. Provedení testu o shodě středních hodnot: Návrat do Statistiky podle skupin – Analýza rozptylu. Analýza rozptylu (cas_delniku.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 1,117708 2 0,558854 0,751667 13 0,057821 9,665327 0,002680 Komentář: Skupinový součet čtverců SA = 1,1177, počet stupňů volnosti fA = 2, reziduální součet čtverců SE = 0,7517, počet stupňů volnosti fE = 13, testová statistika EE AA A fS fS F = nabývá hodnoty 9,6653, počet stupňů volnosti čitatele = 2, jmenovatele = 13, odpovídající phodnota = 0,00268, tedy na hladině významnosti 0,05 se zamítá hypotéza o shodě středních hodnot . Provedení metody mnohonásobného porovnávání (Scheffého test – viz skripta Základní statistické metody, věta 8.2.2.1.): Návrat do do Statistiky podle skupin – Post- hoc – Schefféův test. Scheffeho test; proměn.:X (cas_delniku.sta) Označ. rozdíly jsou významné na hlad. p < ,05000 ID {1} M=3,6500 {2} M=4,2333 {3} M=4,2833 1 {1} 2 {2} 3 {3} 0,008391 0,004705 0,008391 0,937504 0,004705 0,937504 Komentář: Tabulka obsahuje p-hodnoty pro testování hypotéz o shodě středních hodnot všech dvojic výběrů. Výsledek Scheffého metody ukazuje, že na hladině významnosti 0,05 se liší výkony dělníků (1,2), (1,3) a neliší se (2,3). Úkol 2.: V cestovní kanceláři zkoumali u 609 náhodně vybraných klientů, o jaké ubytování měli zájem (varianty apartmán, bungalov, hotel, stan) a zjišťovali též pohlaví klienta. Typ ubytování apartmán bungalov hotel stan Počet žen 12 27 208 33 Počet mužů 100 68 36 152 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozdíly v typech ubytování mezi muži a ženami jsou způsobeny pouze náhodnými vlivy. Návod: Postupujeme podle skript Základní statistické metody, Věta 8.5.1.1. Testujeme hypotézu H0: 41 ϑ==ϑ K proti alternativní hypotéze H1: aspoň jedna dvojice parametrů je různá. Načteme datový soubor klienti_CK.sta. Proměnná POHLAVI obsahuje hodnotu 0 pro ženu, 1 pro muže. Proměnná TYP UBYTOVANI má hodnotu 1 pro apartmán, hodnotu 2 pro bungalov, hodnotu 3 pro hotel a hodnotu 4 pro stan. Nejprve zjistíme podíly mužů v jednotlivých typech ubytování. Statistiky – Základní statistiky/tabulky - Rozklad & jednofakt. ANOVA - OK - Proměnné Závislé POHLAVI, Grupovaci TYP UBYTOVANI, OK, Kódy pro grupovací proměnné – Vše, OK – Popisné statistiky - Výpočet: Tabulka statistik – ponecháme zaškrtnuto N - OK. typ ubytovani pohlavi průměr pohlavi N apartmán 0,892857 112 bungalov 0,602941 68 hotel 0,147541 244 stan 0,821622 185 Vš.skup. 0,540230 609 Komentář: Vidíme, že z těch klientů, kteří se ubytovali v apartmánu, bylo 89,3% mužů, mezi obyvateli bungalovů bylo 60,3% mužů, z ubytovaných v hotelu bylo mužů pouze 14,7% a z těch, kteří bydleli pod stanem, bylo 82,1% mužů. Ověříme splnění podmínek dobré aproximace: njm* > 5 pro všechna j = 1, ..., r. Vážený průměr m* se nachází v posledním řádku výstupní Rozkladové tabulky popisných statistik. Jeho hodnotu okopírujeme do políček pro průměry relativní četnosti ubytovaných v jednotlivých typech ubytování, poslední řádek odstraníme a k tabulce přidáme jednu novou proměnnou, do jejíhož Dlouhého jména napíšeme =v2*v3. typ ubytovani pohlavi průměr pohlavi N NProm =v2*v3 apartmán 0,540230 112 60,505747 bungalov 0,540230 68 36,735632 hotel 0,540230 244 131,816092 stan 0,540230 185 99,942529 Komentář: Vidíme, že podmínky dobré aproximace jsou splněny. Dále provedeme testování hypotézy o shodě parametrů čtyř alternativních rozložení. Statistiky – Základní statistiky/tabulky – Kontingenční tabulky – OK - Specif. tabulky – List 1 POHLAVI, List 2 TYP UBYTOVANI, OK– Možnosti - Statistiky dvourozm tabulek zaškrtneme Pearson & M-L Chi –square – Detailní výsledky – Detailní 2-rozm. tabulky Statist. Chí-kvadr. sv p Pearsonův chí-kv. M-V chí-kvadr. 267,6070 df=3 p=0,0000 294,9782 df=3 p=0,0000 Komentář: Testová statistika Q (viz skripta Základní statistické metody, vzorec 8.15.) se realizuje hodnotou 267,6070, počet stupňů volnosti je 3, odpovídající p-hodnota = 0,0000, tedy na asymptotické hladině významnosti 0,05 hypotézu H0 zamítáme. S rizikem omylu nejvýše 0,05 jsme tedy prokázali, že rozdíly v podílech klientů a klientek ubytovaných v různých typech ubytovacích zařízení nelze vysvětlit pouze náhodnými vlivy. Nakonec provedeme metodu mnohonásobného porovnávání, abychom zjistili, které dvojice typů ubytování se liší na asymptotické hladině významnosti 0,05. Návrat do Statistiky podle skupin – Post- hoc – Schefféův test. typ ubytovani {1} M=,89286 {2} M=,60294 {3} M=,14754 {4} M=,82162 apartmán {1} bungalov {2} hotel {3} stan {4} 0,000016 0,000000 0,471207 0,000016 0,000000 0,000797 0,000000 0,000000 0,000000 0,471207 0,000797 0,000000 Komentář: Tabulka obsahuje p-hodnoty pro testování hypotéz o shodě středních hodnot všech dvojic výběrů. Výsledek Scheffého metody ukazuje, že z hlediska podílu mužů se na hladině významnosti 0,05 neliší pouze ubytování v apartmánu a ve stanu. Příklady k samostatnému řešení Příklad 1.: Studenti byli vyučováni předmětu za využití pěti pedagogických metod: tradiční způsob, programová výuka, audiotechnika, audiovizuální technika a vizuální technika. Z každé skupiny byl vybrán náhodný vzorek studentů a všichni byli podrobeni témuž písemnému testu. Výsledky testu: metoda počet bodů tradiční 76,2 48,3 85,1 63,7 91,6 87,2 programová 85,2 74,3 76,5 80,3 67,4 67,9 72,1 60,4 audio 67,3 60,1 55,4 72,3 40 audiovizuální 75,8 81,6 90,3 78 67,8 57,6 vizuální 50,5 70,2 88,8 67,1 77,7 73,9 Na hladině významnosti 0,05 testujte hypotézu, že znalosti všech studentů jsou stejné a nezávisí na použité pedagogické metodě. V případě zamítnutí hypotézy zjistěte, které výběry se liší na hladině významnosti 0,05. Řešení: Načteme datový soubor pet_metod.sta. Proměnná BODY obsahuje dosažené počty bodů a proměnná METODA označení příslušné pedagogické metody. Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů: Rozkladová tabulka popisných statistik (pet_metod.sta) N=31 (V seznamu záv. prom. nejsou ChD) METODA BODY průměr BODY N BODY Sm.odch. tradiční 75,35000 6 16,53901 programová 73,01250 8 7,86501 audio 59,02000 5 12,45941 audiovizuální 75,18333 6 11,32862 vizuální 71,36667 6 12,69199 Vš.skup. 71,30968 31 12,69534 Komentář: Nejlepších výsledků dosahují studenti vyučovaní tradiční metodou, podávají však nejméně vyrovnané výkony (počty bodů v této skupině mají největší směrodatnou odchylku). Naopak nejhoršího výsledku dosáhli studenti vyučovaní audio metodou. Nejvyrovnanější výkony pozorujeme u studentů vyučovaných programovou metodou. Vytvoříme krabicové diagramy: Průměr Průměr±SmOdch Průměr±1,96*SmOdch tradiční programová audio audiovizuální vizuální METODA 30 40 50 60 70 80 90 100 110 120 BODY Pomocí N-P grafů vizuálně posoudíme normalitu všech pěti výběrů: METODA: tradiční 30 40 50 60 70 80 90 100 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Očekávanánormálníhodnota METODA: programová 30 40 50 60 70 80 90 100 METODA: audio 30 40 50 60 70 80 90 100 METODA: audiovizuální 30 40 50 60 70 80 90 100 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Očekávanánormálníhodnota METODA: vizuální 30 40 50 60 70 80 90 100 Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech pěti případech oprávněný. Provedeme Levenův test (testování homogenity rozptylů všech pěti výběrů) Leveneův test homogenity rozpylů (pet_metod.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p BODY 162,4883 4 40,62208 1289,544 26 49,59783 0,819029 0,524791 Komentář: Testová statistika F se realizuje hodnotou 0,819, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,5248, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě rozptylů. Budeme testovat hypotézu o shodě středních hodnot všech pěti výběrů: Analýza rozptylu (pet_metod.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p BODY 966,3737 4 241,5934 3868,773 26 148,7990 1,623623 0,198252 Komentář: Testová statistika F se realizuje hodnotou 1,6236, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,1983, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě středních hodnot. Znamená to, že s rizikem omylu nejvýše 5% se neprokázal rozdíl v účinnosti jednotlivých pedagogických metod.. Příklad 2.: Pan Novák může cestovat z místa bydliště do místa pracoviště třemi různými způsoby: tramvají (způsob A), autobusem (způsob B) a metrem s následným přestupem na tramvaj (způsob C). Máme k dispozici jeho naměřené časy cestování do práce v době ranní špičky (včetně čekání na příslušný spoj) v minutách: způsob A: 32, 39, 42, 37, 34, 38: způsob B: 30, 34, 28, 26, 32, způsob C: 40, 37, 31, 39, 38, 33, 34 Pro všechny tři způsoby dopravy vypočtěte průměrné časy cestování. Na hladině významnosti 0,05 testujte hypotézu, že doba cestování do práce nezávisí na způsobu dopravy. V případě zamítnutí nulové hypotézy zjistěte, které způsoby dopravy do práce se od sebe liší na hladině významnosti 0,05. Řešení: Načteme datový soubor doby_cestovani.sta. Proměnná CAS obsahuje zjištěné doby cestování a proměnná ID označení příslušného způsoby dopravy. Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů: Rozkladová tabulka popisných statistik (doby_cestovani.sta) N=18 (V seznamu záv. prom. nejsou ChD) ID CAS průměr CAS N CAS Sm.odch. tramvaj 37,00000 6 3,577709 autobus 30,00000 5 3,162278 metro 36,00000 7 3,366502 Vš.skup. 34,66667 18 4,379095 Komentář: Nejkratší průměrnou dobu do zaměstnání pan Novák cestuje, když použije autobus, naopak nejdéle cestuje tramvají Variabilita dob jednotlivých způsobů cestování je vcelku vyrovnaná. Vytvoříme krabicové diagramy: Průměr Průměr±SmOdch Průměr±1,96*SmOdch tramvaj autobus metro ID 22 24 26 28 30 32 34 36 38 40 42 44 46 CAS Pomocí N-P grafů vizuálně posoudíme normalitu všech tří výběrů: ID: tramvaj 24 26 28 30 32 34 36 38 40 42 44 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 Očekávanánormálníhodnota ID: autobus 24 26 28 30 32 34 36 38 40 42 44 ID: metro 24 26 28 30 32 34 36 38 40 42 44 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 Očekávanánormálníhodnota Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech třech případech oprávněný. Provedeme Levenův test (testování homogenity rozptylů všech tří výběrů) Leveneův test homogenity rozpylů (doby_cestovani.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p CAS 0,609524 2 0,304762 43,39048 15 2,892698 0,105356 0,900665 Komentář: Testová statistika F se realizuje hodnotou 0,1054, počet stupňů volnosti čitatele = 2, jmenovatele = 15, odpovídající p-hodnota = 0,9007, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě rozptylů. Budeme testovat hypotézu o shodě středních hodnot všech tří výběrů: Analýza rozptylu (doby_cestovani.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p CAS 154,0000 2 77,00000 172,0000 15 11,46667 6,715116 0,008267 Komentář: Testová statistika F se realizuje hodnotou 6,7151, počet stupňů volnosti čitatele = 2, jmenovatele = 15, odpovídající p-hodnota = 0,0083, na hladině významnosti 0,05 tedy zamítáme hypotézu o shodě středních hodnot. Znamená to, že s rizikem omylu nejvýše 5% se prokázal rozdíl v dobách cestování pana Nováka do zaměstnání autobusem, tramvají a metrem. Scheffého metodou mnohonásobného porovnávání zjistíme, které dvojice způsobů cestování do zaměstnání se liší na hladině významnosti 0,05: Scheffeho test; proměn.:CAS (doby_cestovani.sta) Označ. rozdíly jsou významné na hlad. p < ,05000 ID {1} M=37,000 {2} M=30,000 {3} M=36,000 tramvaj {1} autobus {2} metro {3} 0,013410 0,869732 0,013410 0,028046 0,869732 0,028046 Komentář: Z tabulky vyplývá, že s rizikem omylu nejvýše 5% se neliší pouze cestování tramvají a metrem. Příklad 3.: U 856 žáků ZŠ bylo zjišťováno celkové IQ (proměnná IQ_CELK). Na asymptotické hladině významnosti 0,05 testujte hypotézu, že pravděpodobnost výskytu dítěte s nadprůměrným IQ_CELK (tj. nad 100 bodů) je stejná ve skupinách matek se základním, středoškolským a vysokoškolským vzděláním (proměnná VZDEL_M). Řešení: Máme tři nezávislé náhodné výběry, j-tý pochází z rozložení A( jϑ ), j = 1, 2, 3. Testujeme hypotézu H0: 321 ϑ=ϑ=ϑ . n1 = 361, n2 = 386, n3 = 109, n = 856 m1 = 111/361 = 30,75%, m2 = 227/386 = 58,81%, m3 = 85/109 = 77,98%, m* = (111+227+85)/856 = 423/856 = 49,42%. Podmínky dobré aproximace: 39,178 856 423 361 =⋅ , 75,190 856 423 386 =⋅ , 86,53 856 423 109 =⋅ Testová statistika ( ) 53,99 M1 M nMn M1M 1 Q r 1j * *2 jj ** = − − − = ∑= Kritický obor: ( ) ) )∞=∞χ= ,991,5,2W 95,0 2 . Protože testové kritérium se realizuje v kritickém oboru, H0 zamítáme na asymptotické hladině významnosti 0,05. Metoda mnohonásobného porovnávání prokázala, že na asymptotické hladině významnosti 0,05 se liší všechny tři skupiny.