Téma 8: Parametrické úlohy o více nezávislých náhodných výběrech Úkol 1.: V jisté továrně se měřil čas, který potřeboval každý ze tří dělníků k uskutečnění téhož pracovního úkonu. Čas v minutách: 1. dělník: 3,6 3,8 3,7 3,5 2. dělník: 4,3 3,9 4,2 3,9 4,4 4,7 3. dělník: 4,2 4,5 4,0 4,1 4,5 4,4. Na hladině významnosti 0,05 testujte hypotézu, že výkony těchto tří dělníků jsou stejné. Zamítnete-li nulovou hypotézu, určete, výkony kterých dělníků se liší na dané hladině významnosti 0,05. Návod: Úloha vede na analýzu rozptylu jednoduchého třídění. Postupujeme podle skript Základní statistické metody, odstavec 8.1. Načteme datový soubor cas_delniku.sta. Proměnná X obsahuje zjištěné časy, proměnná ID nabývá hodnoty 1 pro 1. dělníka, hodnoty 2 pro 2. dělníka a hodnoty 3 pro 3. dělníka. Statistiky – Základní statistiky/tabulky – Rozklad & jednofakt. ANOVA – Proměnné - Závislé X, Grupovací ID, OK, Kódy pro grupovací proměnné – Vše, OK, Výpočet: Tabulka statistik (zobrazí se průměry, směrodatné odchylky a rozsahy všech tří výběrů). Komentář: Na uskutečnění daného pracovního úkonu potřebuje nejkratší čas 1. dělník. Podává také nejvyrovnanější výkony – směrodatná odchylka proměnné X je u něj nejmenší. Naopak nejpomalejší je 3. dělník. Nyní vytvoříme krabicové diagramy: Návrat do Statistiky podle skupin – Kategoriz. krabicový graf (současné zobrazení krabicových diagramů pro všechny tři výběry ) Pomocí N-P plot orientačně posoudíme normalitu všech tří výběrů: Návrat do Statistiky podle skupin – ANOVA & testy – Kategoriz. norm. pravd. grafy Komentář: Ve všech třech případech se tečky jen málo odchylují od přímky, lze soudit, že data pocházejí z normálního rozložení. Provedení testu o shodě rozptylů: Návrat do Statistiky podle skupin – Leveneovy testy Komentář: Testová statistika Levenova testu nabývá hodnoty 1,5142, stupně volnosti čitatele = 2, jmenovatele = 13, odpovídající p-hodnota = 0,256, tedy na hladině významnosti 0,05 se nezamítá hypotézu o shodě rozptylů. Provedení testu o shodě středních hodnot: Návrat do Statistiky podle skupin – Analýza rozptylu. Komentář: Skupinový součet čtverců S[A] = 1,1177, počet stupňů volnosti f[A] = 2, reziduální součet čtverců S[E] = 0,7517, počet stupňů volnosti f[E] = 13, testová statistika nabývá hodnoty 9,6653, počet stupňů volnosti čitatele = 2, jmenovatele = 13, odpovídající p-hodnota = 0,00268, tedy na hladině významnosti 0,05 se zamítá hypotéza o shodě středních hodnot . Provedení metody mnohonásobného porovnávání (Scheffého test – viz skripta Základní statistické metody, věta 8.2.2.1.): Návrat do do Statistiky podle skupin – Post- hoc – Schefféův test. Komentář: Tabulka obsahuje p-hodnoty pro testování hypotéz o shodě středních hodnot všech dvojic výběrů. Výsledek Scheffého metody ukazuje, že na hladině významnosti 0,05 se liší výkony dělníků (1,2), (1,3) a neliší se (2,3). Úkol 2.: Na gymnázium bylo přijato 142 studentů. Ti byli náhodně rozděleni do čtyř tříd A, B, C, D. V každé třídě byla matematika vyučována jinou metodou. Na konci školního roku psali všichni studenti stejnou písemnou práci a byl zaznamenán počet těch studentů, kteří vyřešili všechny zadané úkoly. Třída A B C D Počet studentů 35 36 37 34 Počet úspěšných studentů 5 8 17 15 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozdíly v podílech úspěšných studentů v jednotlivých třídách jsou způsobeny pouze náhodnými vlivy. Návod: Postupujeme podle skript Základní statistické metody, Věta 8.5.1.1. Testujeme hypotézu H[0]: proti alternativní hypotéze H[1]: aspoň jedna dvojice parametrů je různá. Načteme datový soubor uspechy_studentu.sta. Proměnná USPECH obsahuje hodnotu 1, pokud student vyřešil všechny zadané úkoly, jinak obsahuje hodnou 0. Proměnná TRIDA má hodnotu 1, pokud student pochází z třídy A, hodnotu 2 pro třídu B, hodnotu 3 pro třídu C a hodnotu 4 pro třídu D. Nejprve zjistíme podíly úspěšných studentů v jednotlivých třídách. Statistiky – Základní statistiky/tabulky - Rozklad & jednofakt. ANOVA - OK - Proměnné - Závislé USPECH, Grupovaci TRIDA, OK, Kódy pro grupovací proměnné – Vše, OK – Popisné statistiky - Výpočet: Tabulka statistik – necháme zaškrtnuto pouze Počet platných OK. Komentář: Vidíme, že nejslabší výkony podávali studenti ze třídy A, úspěšných bylo pouze 14,3% studentů, ve třídě B 22,2%, ve třídě C 45,9% a ve třídě D 44,1%. Třídy C a D se z hlediska úspěchu v písemce z matematiky liší jen nepatrně. Ověříme splnění podmínek dobré aproximace: n[j]m[* ]> 5 pro všechna j = 1, ..., r. Vážený průměr m[*] se nachází v posledním řádku výstupní Rozkladové tabulky popisných statistik. Jeho hodnotu okopírujeme do políček pro průměry tříd A, B, C, D, poslední řádek odstraníme a k tabulce přidáme jednu novou proměnnou, do jejíhož Dlouhého jména napíšeme =v2*v3. Komentář: Vidíme, že podmínky dobré aproximace jsou splněny. Dále provedeme testování hypotézy o shodě parametrů čtyř alternativních rozložení. Statistiky – Základní statistiky/tabulky – Kontingenční tabulky – OK - Specif. tabulky – List 1 USPECH, List 2 TRIDA, OK– Možnosti - Statistiky dvourozm tabulek - zaškrtneme Pearson & M-L Chi –square – Detailní výsledky – Detailní 2-rozm. tabulky Komentář: Testová statistika Q (viz skripta Základní statistické metody, vzorec 8.15.) se realizuje hodnotou 12,2876, počet stupňů volnosti je 3, odpovídající p-hodnota = 0,00646, tedy na asymptotické hladině významnosti 0,05 hypotézu H[0] zamítáme. S rizikem omylu nejvýše 0,05 jsme tedy prokázali, že rozdíly v podílech úspěšných studentů v jednotlivých třídách nelze vysvětlit náhodnými vlivy. Příklady k samostatnému řešení Příklad 1.: Studenti byli vyučováni předmětu za využití pěti pedagogických metod: tradiční způsob, programová výuka, audiotechnika, audiovizuální technika a vizuální technika. Z každé skupiny byl vybrán náhodný vzorek studentů a všichni byli podrobeni témuž písemnému testu. Výsledky testu: metoda počet bodů tradiční 76,2 48,3 85,1 63,7 91,6 87,2 programová 85,2 74,3 76,5 80,3 67,4 67,9 72,1 60,4 audio 67,3 60,1 55,4 72,3 40 audiovizuální 75,8 81,6 90,3 78 67,8 57,6 vizuální 50,5 70,2 88,8 67,1 77,7 73,9 Na hladině významnosti 0,05 testujte hypotézu, že znalosti všech studentů jsou stejné a nezávisí na použité pedagogické metodě. V případě zamítnutí hypotézy zjistěte, které výběry se liší na hladině významnosti 0,05. Řešení: Načteme datový soubor pet_metod.sta. Proměnná BODY obsahuje dosažené počty bodů a proměnná METODA označení příslušné pedagogické metody. Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů: Komentář: Nejlepších výsledků dosahují studenti vyučovaní tradiční metodou, podávají však nejméně vyrovnané výkony (počty bodů v této skupině mají největší směrodatnou odchylku). Naopak nejhoršího výsledku dosáhli studenti vyučovaní audio metodou. Nejvyrovnanější výkony pozorujeme u studentů vyučovaných programovou metodou. Vytvoříme krabicové diagramy: Pomocí N-P grafů vizuálně posoudíme normalitu všech pěti výběrů: Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech pěti případech oprávněný. Provedeme Levenův test (testování homogenity rozptylů všech pěti výběrů) Komentář: Testová statistika F se realizuje hodnotou 0,819, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,5248, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě rozptylů. Budeme testovat hypotézu o shodě středních hodnot všech pěti výběrů: Komentář: Testová statistika F se realizuje hodnotou 1,6236, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,1983, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě středních hodnot. Znamená to, že s rizikem omylu nejvýše 5% se neprokázal rozdíl v účinnosti jednotlivých pedagogických metod.. Příklad 2.: Pan Novák může cestovat z místa bydliště do místa pracoviště třemi různými způsoby: tramvají (způsob A), autobusem (způsob B) a metrem s následným přestupem na tramvaj (způsob C). Máme k dispozici jeho naměřené časy cestování do práce v době ranní špičky (včetně čekání na příslušný spoj) v minutách: způsob A: 32, 39, 42, 37, 34, 38: způsob B: 30, 34, 28, 26, 32, způsob C: 40, 37, 31, 39, 38, 33, 34 Pro všechny tři způsoby dopravy vypočtěte průměrné časy cestování. Na hladině významnosti 0,05 testujte hypotézu, že doba cestování do práce nezávisí na způsobu dopravy. V případě zamítnutí nulové hypotézy zjistěte, které způsoby dopravy do práce se od sebe liší na hladině významnosti 0,05. Řešení: Načteme datový soubor doby_cestovani.sta. Proměnná CAS obsahuje zjištěné doby cestování a proměnná ID označení příslušného způsoby dopravy. Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů: Komentář: Nejkratší průměrnou dobu do zaměstnání pan Novák cestuje, když použije autobus, naopak nejdéle cestuje tramvají Variabilita dob jednotlivých způsobů cestování je vcelku vyrovnaná. Vytvoříme krabicové diagramy: Pomocí N-P grafů vizuálně posoudíme normalitu všech tří výběrů: Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech třech případech oprávněný. Provedeme Levenův test (testování homogenity rozptylů všech tří výběrů) Komentář: Testová statistika F se realizuje hodnotou 0,1054, počet stupňů volnosti čitatele = 2, jmenovatele = 15, odpovídající p-hodnota = 0,9007, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě rozptylů. Budeme testovat hypotézu o shodě středních hodnot všech tří výběrů: Komentář: Testová statistika F se realizuje hodnotou 6,7151, počet stupňů volnosti čitatele = 2, jmenovatele = 15, odpovídající p-hodnota = 0,0083, na hladině významnosti 0,05 tedy zamítáme hypotézu o shodě středních hodnot. Znamená to, že s rizikem omylu nejvýše 5% se prokázal rozdíl v dobách cestování pana Nováka do zaměstnání autobusem, tramvají a metrem. Scheffého metodou mnohonásobného porovnávání zjistíme, které dvojice způsobů cestování do zaměstnání se liší na hladině významnosti 0,05: Komentář: Z tabulky vyplývá, že s rizikem omylu nejvýše 5% se neliší pouze cestování tramvají a metrem. Příklad 3.: U 856 žáků ZŠ bylo zjišťováno celkové IQ (proměnná IQ_CELK). Na asymptotické hladině významnosti 0,05 testujte hypotézu, že pravděpodobnost výskytu dítěte s nadprůměrným IQ_CELK (tj. nad 100 bodů) je stejná ve skupinách matek se základním, středoškolským a vysokoškolským vzděláním (proměnná VZDEL_M). Řešení: Máme tři nezávislé náhodné výběry, j-tý pochází z rozložení A( ), j = 1, 2, 3. Testujeme hypotézu H[0]: . n[1 ]= 361, n[2 ]= 386, n[3 ]= 109, n = 856 m[1 ]= 111/361 = 30,75%, m[2 ]= 227/386 = 58,81%, m[3 ]= 85/109 = 77,98%, m[*] = (111+227+85)/856 = 423/856 = 49,42%. Podmínky dobré aproximace: , , Testová statistika Kritický obor: . Protože testové kritérium se realizuje v kritickém oboru, H[0] zamítáme na asymptotické hladině významnosti 0,05. Metoda mnohonásobného porovnávání prokázala, že na asymptotické hladině významnosti 0,05 se liší všechny tři skupiny.