Cvičení 8.: Úlohy o dvou a více nezávislých náhodných výběrech z normálních rozložení Úkol 1. (Dvouvýběrový t-test): Hejtman Jihomoravského kraje chtěl porovnat situaci svého kraje s ostatními moravskými kraji vzhledem ke znečištění ovzduší oxidem siřičitým, oxidy dusíku a oxidem uhelnatým. Požádal proto Stranu zelených, aby na základě údajů ze Statistické ročenky ČSÚ za léta 2000 až 2006 její experti provedli příslušnou analýzu. Roční měrné emise jsou uvedeny v tunách na km2 . Data jsou uložena v souboru znecisteni.sta. Vaším úkolem bude provést srovnání středních hodnot znečištění oxidem siřičitým v Jihomoravském kraji a Olomouckém kraji. Na hladině významnosti 0,05 ověřte normalitu dat, homogenitu rozptylů a proveďte test shody středních hodnot. Výpočty doplňte krabicovými grafy a rovněž vypočtěte Cohenův koeficient věcného účinku. Řešení pomocí systému STATISTICA: Nejprve pomocí N-P grafů a S-W testem ověříme, zda hodnoty proměnné SO2 pro JMK a OLK pocházejí z normálních rozložení. Grafy – 2D Grafy – Normální pravděpodobnostní grafy – zapneme filtr – zaškrtneme některé, vybrané pomocí výrazu kraj=1 or kraj=2 – OK- zaškrtneme Shapirův – Wilkův test Proměnné SO2 – OK – na záložce Kategorizovaný zaškrtneme Kategorie X zapnuto – změnit proměnnou – kraj – OK. Normální p-graf z SO2; kategorizovaný kraj znecisteni.sta 4v*35c Zahrnout jestliže: kraj="JMK" or kraj="OLK" kraj: JMK 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 Očekávanánormálníhodnota kraj: OLK 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 kraj: JMK SO2: SW-W = 0,8181; p = 0,0616 kraj: OLK SO2: SW-W = 0,8187; p = 0,0624 Na hladině významnosti 0,05 nelze zamítnout hypotézu o normalitě pro proměnnou SO2 ani v JMK ani v OLK. Rovněž vzhled N-P grafů podporuje hypotézu o normalitě. Dále provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika – Základní statistiky a tabulky – t-test, nezávislé, dle skupin. – OK – Select cases zaškrtneme některé, vybrané pomocí výrazu kraj=1 or kraj=2 – OK - , Proměnné – Závislé proměnné SO2, Grupovací proměnná kraj – OK – Výpočet. Dostaneme tabulku: t-testy; grupováno: kraj (znecisteni.sta) Skup. 1: JMK: Jihomoravsky kraj Skup. 2: OLK: Olomoucky kraj Zhrnout podmínku: kraj=1 or kraj=2 Proměnná Průměr JMK Průměr OLK t sv p Poč.plat JMK Poč.plat. OLK Sm.odch. JMK Sm.odch. OLK F-poměr Rozptyly p Rozptyly SO2 0,514286 1,228571 -12,2474 12 0,000000 7 7 0,089974 0,125357 1,941176 0,439702 Vidíme, že průměrné znečištění oxidem siřičitým v Jihomoravském kraji v letech 2000 – 2006 je 0,51, v Olomouckém 1,23. Testová statistika pro test shody rozptylů se realizuje hodnotou 1,94117, odpovídající p-hodnota je 0,4397, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro nezávislé vzorky dle skupin na záložce Možnosti zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou -12,247, počet stupňů volnosti je 12, odpovídající p-hodnota je velmi blízká 0, tedy hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5 % se prokázal rozdíl ve středních hodnotách znečištění oxidem siřičitým v Jihomoravském a Olomouckém kraji. Tabulku ještě doplníme krabicovými diagramy. Aktivujeme t-test pro nezávislé vzorky dle skupin – Krabicový graf. Krabicový graf : SO2: merne emise oxidu siriciteho (t/km2) Zhrnout podmínku: kraj=1 or kraj=2 Průměr Průměr±SmCh Průměr±1,96*SmCh JMK OLK kraj 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 SO2 Z grafu je vidět, že průměrná úroveň znečištění v Jihomoravském kraji je podstatně nižší než v Olomouckém kraji a má poněkud menší variabilitu. Extrémní ani odlehlé hodnoty se zde nevyskytují. Výpočet Cohenova koeficientu věcného účinku (použití makra Cohen.svb.) 1 n1 2 n2 3 m1 4 m2 5 s1 6 s2 7 d 1 7 7 0,5143 1,2286 0,09 0,1254 6,544519 Cohenův koeficient nabyl hodnoty 6,55, vliv kraje na velikost znečištění oxidem siřičitým je tedy velký. Úkol 2.: (ANOVA) U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky (v kg): odrůda hmotnost A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Řešení pomocí systému STATISTICA: Otevřeme datový soubor brambory.sta o dvou proměnných a 15 případech. Proměnná HMOTNOST obsahuje zjištěné hmotnosti, proměnná ID identifikuje odrůdu A až D. Pomocí NP-grafu a S-W testu ověříme normalitu dat v daných čtyřech skupinách. Grafy – 2D Grafy – Normální pravděpodobnostní grafy – zaškrtneme S-W test, Proměnné HMOTNOST, OK, Kategorizovaný – Kategorie X, zaškrtneme Zapnuto, Změnit proměnnou – ID, OK. Dostaneme graf Normální p-graf HMOTNOST (priklad66 2v*15c) ID: 1 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Očekávanánormálníhodnota ID: 2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 ID: 3 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Očekávanánormálníhodnota ID: 4 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 ID: 1 HMOTNOST: SW-W = 0,8274; p = 0,1612 ID: 2 HMOTNOST: SW-W = 0,75; p = 0-,0000 ID: 3 HMOTNOST: SW-W = 0,9053; p = 0,4399 ID: 4 HMOTNOST: SW-W = 1; p = --- Vidíme, že ve všech čtyřech případech jsou odchylky teček od přímky jenom malé a data tedy lze považovat za realizace náhodných výběrů z normálních rozložení. Nejprve vypočteme průměry a směrodatné odchylky daných čtyř výběrů: Statistika – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK, Proměnné – Závislé proměnné HMOTNOST, Grupovací proměnná ID – OK – Výpočet: Tabulka statistik ID X průměr X N X Sm.odch. A 0,800000 4 0,141421 B 1,200000 3 0,173205 C 1,400000 5 0,200000 D 1,100000 3 0,100000 Vš.skup. 1,140000 15 0,282337 Vidíme, že nejnižší průměrnou hmotnost má odrůda A, nejnižší variabilitu hmotnosti vykazuje odrůda D. Nyní budeme na hladině významnosti 0,05 testovat hypotézu o shodě rozptylů: Na záložce ANOVA & testy vybereme Leveneovy testy. Ve výstupu dostaneme tabulku Leveneův test homogenity rozpylů (brambory.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p HMOTNOST 0,018667 3 0,006222 0,065333 11 0,005939 1,047619 0,410027 Testová statistika Levenova testu se realizuje hodnotou 1,047619, počet stupňů volnosti čitatele je 3, jmenovatele 11, odpovídající p-hodnota je 0,410027, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. Dále budeme na hladině významnosti 0,05 testovat hypotézu o shodě středních hodnot. Na záložce ANOVA & testy vybereme Analýza rozptylu. Ve výstupu dostaneme tabulku Analýza rozptylu (brambory.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p HMOTNOST 0,816000 3 0,272000 0,300000 11 0,027273 9,973333 0,001805 Testová statistika FA se realizuje hodnotou 9,97333, počet stupňů volnosti čitatele je 3, jmenovatele 11, odpovídající p-hodnota je 0,001805, tedy na hladině významnosti 0,05 zamítáme hypotézu o shodě středních hodnot. Sestrojíme krabicové diagramy tak, že na záložce Základní výsledky zvolíme Kategoriz. krabicový graf. Kategoriz. krabicový graf: HMOTNOST: hmotnost Průměr Průměr±SmCh Průměr±1,96*SmCh A B C D ID 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 HMOTNOST Abychom zjistili, které dvojice odrůd se liší na hladině významnosti 0,05, na záložce Post-hoc vybereme Schefféův test. Scheffeho test; proměn.:HMOTNOST (brambory.sta) Označ. rozdíly jsou významné na hlad. p < ,05000 ID {1} M=,80000 {2} M=1,2000 {3} M=1,4000 {4} M=1,1000 A {1} B {2} C {3} D {4} 0,059165 0,001950 0,190463 0,059165 0,464537 0,905502 0,001950 0,464537 0,163499 0,190463 0,905502 0,163499 V tabulce jsou uvedeny p-hodnoty pro testování hypotéz o shodě dvojic středních hodnot. Pouze jediná z těchto p-hodnot je menší nebo rovna 0,05, tedy na hladině významnosti 0,05 se liší odrůdy A a C. Příklad k samostatnému řešení Studenti byli vyučováni předmětu za využití pěti pedagogických metod: tradiční způsob, programová výuka, audiotechnika, audiovizuální technika a vizuální technika. Z každé skupiny byl vybrán náhodný vzorek studentů a všichni byli podrobeni témuž písemnému testu. Výsledky testu: metoda počet bodů tradiční 76,2 48,3 85,1 63,7 91,6 87,2 programová 85,2 74,3 76,5 80,3 67,4 67,9 72,1 60,4 audio 67,3 60,1 55,4 72,3 40 audiovizuální 75,8 81,6 90,3 78 67,8 57,6 vizuální 50,5 70,2 88,8 67,1 77,7 73,9 Na hladině významnosti 0,05 testujte hypotézu, že znalosti všech studentů jsou stejné a nezávisí na použité pedagogické metodě. V případě zamítnutí hypotézy zjistěte, které výběry se liší na hladině významnosti 0,05. Řešení: Načteme datový soubor pet_metod.sta. Proměnná BODY obsahuje dosažené počty bodů a proměnná METODA označení příslušné pedagogické metody. Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů: Rozkladová tabulka popisných statistik (pet_metod.sta) N=31 (V seznamu záv. prom. nejsou ChD) METODA BODY průměr BODY N BODY Sm.odch. tradiční 75,35000 6 16,53901 programová 73,01250 8 7,86501 audio 59,02000 5 12,45941 audiovizuální 75,18333 6 11,32862 vizuální 71,36667 6 12,69199 Vš.skup. 71,30968 31 12,69534 Komentář: Nejlepších výsledků dosahují studenti vyučovaní tradiční metodou, podávají však nejméně vyrovnané výkony (počty bodů v této skupině mají největší směrodatnou odchylku). Naopak nejhoršího výsledku dosáhli studenti vyučovaní audio metodou. Nejvyrovnanější výkony pozorujeme u studentů vyučovaných programovou metodou. Vytvoříme krabicové diagramy: Kategoriz. krabicový graf: BODY Průměr Průměr±SmCh Průměr±1,96*SmCh tradi ční programová audio audiovizuální vizuální METODA 45 50 55 60 65 70 75 80 85 90 95 BODY Pomocí N-P grafů vizuálně posoudíme normalitu všech pěti výběrů: METODA: tradiční 30 40 50 60 70 80 90 100 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Očekávanánormálníhodnota METODA: programová 30 40 50 60 70 80 90 100 METODA: audio 30 40 50 60 70 80 90 100 METODA: audiovizuální 30 40 50 60 70 80 90 100 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Očekávanánormálníhodnota METODA: vizuální 30 40 50 60 70 80 90 100 Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech pěti případech oprávněný. Provedeme Levenův test (testování homogenity rozptylů všech pěti výběrů) Leveneův test homogenity rozpylů (pet_metod.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p BODY 162,4883 4 40,62208 1289,544 26 49,59783 0,819029 0,524791 Komentář: Testová statistika F se realizuje hodnotou 0,819, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,5248, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě rozptylů. Budeme testovat hypotézu o shodě středních hodnot všech pěti výběrů: Analýza rozptylu (pet_metod.sta) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p BODY 966,3737 4 241,5934 3868,773 26 148,7990 1,623623 0,198252 Komentář: Testová statistika F se realizuje hodnotou 1,6236, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,1983, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě středních hodnot. Znamená to, že se neprokázal rozdíl v účinnosti jednotlivých pedagogických metod.