Cvičení 8.: Úlohy o dvou a více nezávislých náhodných výběrech z normálních rozložení Úkol 1. (Dvouvýběrový t-test): Hejtman Jihomoravského kraje chtěl porovnat situaci svého kraje s ostatními moravskými kraji vzhledem ke znečištění ovzduší oxidem siřičitým, oxidy dusíku a oxidem uhelnatým. Požádal proto Stranu zelených, aby na základě údajů ze Statistické ročenky ČSÚ za léta 2000 až 2006 její experti provedli příslušnou analýzu. Roční měrné emise jsou uvedeny v tunách na km2. Data jsou uložena v souboru znecisteni.sta. Vaším úkolem bude provést srovnání středních hodnot znečištění oxidem siřičitým v Jihomoravském kraji a Olomouckém kraji. Na hladině významnosti 0,05 ověřte normalitu dat, homogenitu rozptylů a proveďte test shody středních hodnot. Výpočty doplňte krabicovými grafy a rovněž vypočtěte Cohenův koeficient věcného účinku. Řešení pomocí systému STATISTICA: Nejprve pomocí N-P grafů a S-W testem ověříme, zda hodnoty proměnné SO2 pro JMK a OLK pocházejí z normálních rozložení. Grafy – 2D Grafy – Normální pravděpodobnostní grafy – zapneme filtr – zaškrtneme některé, vybrané pomocí výrazu kraj=“JMK or kraj=“OLK“ – OK- zaškrtneme Shapirův – Wilksův test - Proměnné SO2 – OK – na záložce Kategorizovaný zaškrtneme Kategorie X zapnuto – změnit proměnnou – kraj – OK. Na hladině významnosti 0,05 nelze zamítnout hypotézu o normalitě pro proměnnou SO2 ani v JMK ani v OLK. Rovněž vzhled N-P grafů podporuje hypotézu o normalitě. Dále provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika – Základní statistiky a tabulky – t-test, nezávislé, dle skupin. – OK, Proměnné – Závislé proměnné SO2, Grupovací proměnná kraj – OK – Výpočet. Dostaneme tabulku: Vidíme, že průměrné znečištění oxidem siřičitým v Jihomoravském kraji v letech 2000 – 2006 je 0,51, v Olomouckém 1,23. Testová statistika pro test shody rozptylů se realizuje hodnotou 1,94117, odpovídající p-hodnota je 0,4397, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro nezávislé vzorky dle skupin na záložce Možnosti zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou -12,247, počet stupňů volnosti je 12, odpovídající p-hodnota je velmi blízká 0, tedy hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5% se prokázal rozdíl ve středních hodnotách znečištění oxidem siřičitým v Jihomoravském a Olomouckém kraji. Tabulku ještě doplníme krabicovými diagramy. Grafy – 2D Grafy – Krabicové grafy – zvolíme Vícenásobný – Proměnné – Závislé prom. SO2, Grupovací prom. kraj – OK - na záložce Detaily vybereme Střední bod Průměr, Krabicový – Hodn. SmOdch, Koeficient 1, Svorka – Hodn. SmOdch, Koeficient 1,96 – OK. Z grafu je vidět, že průměrná úroveň znečištění v Jihomoravském kraji je podstatně nižší než v Olomouckém kraji a má poněkud menší variabilitu. Extrémní ani odlehlé hodnoty se zde nevyskytují. Výpočet Cohenova koeficientu věcného účinku (použití makra Cohen.svb.) Cohenův koeficient nabyl hodnoty 6,55, vliv kraje na velikost znečištění oxidem siřičitým je tedy velký. Úkol 2.: (ANOVA) U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky (v kg): odrůda hmotnost A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Řešení pomocí systému STATISTICA: Otevřeme datový soubor brambory.sta o dvou proměnných a 15 případech. Proměnná HMOTNOST obsahuje zjištěné hmotnosti, proměnná ID identifikuje odrůdu A až D. Pomocí NP-grafu a S-W testu ověříme normalitu dat v daných čtyřech skupinách. Grafy – 2D Grafy – Normální pravděpodobnostní grafy – zaškrtneme S-W test, Proměnné HMOTNOST, OK, Kategorizovaný – Kategorie X, zaškrtneme Zapnuto, Změnit proměnnou – ID, OK. Dostaneme graf Vidíme, že ve všech čtyřech případech jsou odchylky teček od přímky jenom malé a data tedy lze považovat za realizace náhodných výběrů z normálních rozložení. Nejprve vypočteme průměry a směrodatné odchylky daných čtyř výběrů: Statistika – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK, Proměnné – Závislé proměnné HMOTNOST, Grupovací proměnná ID – OK – Výpočet: Tabulka statistik Vidíme, že nejnižší průměrnou hmotnost má odrůda A, nejnižší variabilitu hmotnosti vykazuje odrůda D. Nyní budeme na hladině významnosti 0,05 testovat hypotézu o shodě rozptylů: Na záložce ANOVA & testy vybereme Leveneovy testy. Ve výstupu dostaneme tabulku Testová statistika Levenova testu se realizuje hodnotou 1,047619, počet stupňů volnosti čitatele je 3, jmenovatele 11, odpovídající p-hodnota je 0,410027, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. Dále budeme na hladině významnosti 0,05 testovat hypotézu o shodě středních hodnot. Na záložce ANOVA & testy vybereme Analýza rozptylu. Ve výstupu dostaneme tabulku Testová statistika F[A] se realizuje hodnotou 9,97333, počet stupňů volnosti čitatele je 3, jmenovatele 11, odpovídající p-hodnota je 0,001805, tedy na hladině významnosti 0,05 zamítáme hypotézu o shodě středních hodnot. Sestrojíme krabicové diagramy tak, že na záložce Popisné statistiky zvolíme Kategoriz. krabicový graf. Vybereme typ Průměr/SmOdch/1.96SmOdch. Abychom zjistili, které dvojice odrůd se liší na hladině významnosti 0,05, na záložce Post-hoc vybereme Schefféův test. V tabulce jsou uvedeny p-hodnoty pro testování hypotéz o shodě dvojic středních hodnot. Pouze jediná z těchto p-hodnot je menší nebo rovna 0,05, tedy na hladině významnosti 0,05 se liší odrůdy A a C. Příklad k samostatnému řešení Studenti byli vyučováni předmětu za využití pěti pedagogických metod: tradiční způsob, programová výuka, audiotechnika, audiovizuální technika a vizuální technika. Z každé skupiny byl vybrán náhodný vzorek studentů a všichni byli podrobeni témuž písemnému testu. Výsledky testu: metoda počet bodů tradiční 76,2 48,3 85,1 63,7 91,6 87,2 programová 85,2 74,3 76,5 80,3 67,4 67,9 72,1 60,4 audio 67,3 60,1 55,4 72,3 40 audiovizuální 75,8 81,6 90,3 78 67,8 57,6 vizuální 50,5 70,2 88,8 67,1 77,7 73,9 Na hladině významnosti 0,05 testujte hypotézu, že znalosti všech studentů jsou stejné a nezávisí na použité pedagogické metodě. V případě zamítnutí hypotézy zjistěte, které výběry se liší na hladině významnosti 0,05. Řešení: Načteme datový soubor pet_metod.sta. Proměnná BODY obsahuje dosažené počty bodů a proměnná METODA označení příslušné pedagogické metody. Nejprve vypočteme průměry, směrodatné odchylky a rozsahy všech tří výběrů: Komentář: Nejlepších výsledků dosahují studenti vyučovaní tradiční metodou, podávají však nejméně vyrovnané výkony (počty bodů v této skupině mají největší směrodatnou odchylku). Naopak nejhoršího výsledku dosáhli studenti vyučovaní audio metodou. Nejvyrovnanější výkony pozorujeme u studentů vyučovaných programovou metodou. Vytvoříme krabicové diagramy: Pomocí N-P grafů vizuálně posoudíme normalitu všech pěti výběrů: Komentář: Ze vzhledu N-P grafů je patrné, že předpoklad normality je ve všech pěti případech oprávněný. Provedeme Levenův test (testování homogenity rozptylů všech pěti výběrů) Komentář: Testová statistika F se realizuje hodnotou 0,819, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,5248, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě rozptylů. Budeme testovat hypotézu o shodě středních hodnot všech pěti výběrů: Komentář: Testová statistika F se realizuje hodnotou 1,6236, počet stupňů volnosti čitatele = 4, jmenovatele = 26, odpovídající p-hodnota = 0,1983, na hladině významnosti 0,05 tedy nezamítáme hypotézu o shodě středních hodnot. Znamená to, že s rizikem omylu nejvýše 5% se neprokázal rozdíl v účinnosti jednotlivých pedagogických metod.