Téma 7: Parametrické úlohy o dvou nezávislých náhodných výběrech Úkol 1.: Do programu STATISTICA načtěte soubor studentky.sta, který obsahuje údaje o 48 náhodně vybraných studentkách VŠE v Praze: 1. sloupec – výška, 2. sloupec – známka z matematiky v 1. semestru, 3. sloupec – obor studia (1 – národní hospodářství, 2 – informatika). Úkol 2.: Orientačně ověřte normalitu výšky ve skupině studentek oboru národní hospodářství a oboru informatika vykreslením N-P plotu a histogramu. Návod: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnné X – na záložce Kategorizovaný zaškrtneme Kategorie X Zapnuto – Změnit proměnnou – Z - OK – OK. Podobně pro histogram. N-P plot výšky pro studentky nh N-P plot výšky pro studentky inf Histogram výšky pro studentky nh Histogram výšky pro studentky inf Komentář: Grafy svědčí o mírném narušení normality, jedná se o mírné kladné zešikmení. Nyní provedeme testy normality. Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Select cases – Zapnout filtr – některé vybrané pomocí Z=1 – OK – Proměnná X – OK - Normalita - zaškrtneme Liliefors test, Shapiro-Wilk's test - Testy normality. Dostaneme tyto výsledky: Pro studentky oboru nh Pro studentky oboru inf Komentář: Vypočtenou p-hodnotu porovnáváme se zvolenou hladinou významnosti testu (většinou volíme α = 0,05). Je-li vypočtená p-hodnota ≤ α, pak hypotézu o normalitě zamítáme na hladině významnosti α. V našem případě dojde k zamítnutí hypotézy o normalitě výšky na hladině významnosti 0,05 pouze u Lilieforsova testu pro studentky oboru nh. Úkol 3.: Sestrojte 95% empirický interval spolehlivosti pro střední hodnotu výšky a) studentek oboru nh, b) studentek oboru inf. Návod: Vzhledem k tomu, že data lze považovat za realizace náhodného výběru z normálního rozložení, můžeme použít postup pro konstrukci intervalu spolehlivosti pro střední hodnotu, když rozptyl neznáme. Výpočet je implementován ve STATISTICE. Meze 95% intervalu spolehlivosti pro střední hodnotu proměnné X zjistíme pomocí Popisných statistik, kde zaškrtneme Meze spoleh. prům. Komentář: S pravděpodobností aspoň 95% lze očekávat, že střední hodnoty výška studentek oboru národní hospodářství leží v intervalu 167,3 cm až 172,3 cm, zatímco u studentek oboru informatika v intervalu 164,8 cm až 169 cm. Úkol 4.: Sestrojte 95% interval spolehlivosti pro podíl rozptylů výšek studentek oboru nh a inf. Návod: K datovému souboru přidáme další dvě proměnné DM a HM pro výpočet dolní a horní meze intervalu spolehlivosti. Do Dlouhého jména těchto proměnných zapíšeme vzorce pro dolní a horní mez intervalu spolehlivosti pro podíl rozptylů (viz skripta Základní statistické metody, Věta 7.1.2.1., bod 4 (a)). Výběrové rozptyly pro 1. a 2. výběr zjistíme pomocí Popisných statistik. Interval spolehlivosti je (d, h) = , přičemž první výběr tvoří studentky nh, druhý výběr studentky inf. Do Dlouhého jména proměnné DM napíšeme: =(41,18915/20,72622)/VF(0,975;27;19) (Funkce VF(x;ný;omega) počítá x-kvantil Fisherova – Snedecorova rozložení F(ný, omega).) Do Dlouhého jména proměnné HM napíšeme: =(41,18915/20,72622)/VF(0,025;27;19) Vyjde DM = 0,821186, HM = 4,513831. S pravděpodobností aspoň 0,95 tedy platí: 0,821 < σ[1]^2/ σ[2]^2 < 4,514. Úkol 5.: Na hladině významnosti 0,05 testujte hypotézu, že rozptyly výšek studentek oboru nh a inf jsou shodné. Návod: Jedná se o F-test, kdy testujeme hypotézu proti oboustranné alternativě 1. způsob: lze využít výsledku 4. úkolu. 95% interval spolehlivosti pro podíl rozptylů obsahuje číslo 1, tedy hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. 2. způsob: F-test je implementován ve STATISTICE. Statistiky – Základní statistiky/tabulky – t-test, nezávislé, podle skupn - OK, Proměnné – Závislé proměnné X, Grupovací proměnná Z – OK – Výpočet Komentář: Ve výstupní tabulce nás zajímá hodnota testové statistiky F-testu (v našem případě 1,987288) a odpovídající p-hodnota: 0,124925. Protože p-hodnota je větší než hladina významnosti α = 0,05, nelze na hladině významnosti 0,05 zamítnout nulovou hypotézu. S rizikem omylu nanejvýš 5% se tedy neprokázalo, že by rozptyly výšek studentek oborů nh a inf byly odlišné. Úkol 6.: Sestrojte 95% interval spolehlivosti pro rozdíl středních hodnot výšek studentek oboru nh a inf. Návod: K datovému souboru přidáme další dvě proměnné DM1 a HM1 pro výpočet dolní a horní meze intervalu spolehlivosti. Do Dlouhého jména těchto proměnných zapíšeme vzorce pro dolní a horní mez intervalu spolehlivosti pro rozdíl středních hodnot (viz skripta Základní statistické metody, Věta 7.1.2.1., bod 2 (a)). Výběrové průměry a výběrové rozptyly pro první a druhý výběr zjistíme pomocí Popisných statistik. Oboustranný interval spolehlivosti pro μ[1 ]- μ[2], když rozptyly σ[1]^2[, ] σ[2]^2 neznáme, ale víme, že jsou shodné, je: (d, h) = (m[1] – m[2] – t[1-α/2](n[1]+n[2]-2), m[1] – m[2] + t[1-α/2](n[1]+n[2]-2)), kde je vážený průměr výběrových rozptylů. Do Dlouhého jména proměnné DM1 napíšeme =169,8214-166,9-sqrt((27*41,18915+19*20,72622)/46)*sqrt((1/28)+(1/20))*VStudent(0,975;46) Do Dlouhého jména proměnné HM1 napíšeme =169,8214-166,9+ sqrt((27*41,18915+19*20,72622)/46)*sqrt((1/28)+(1/20))*VStudent(0,975;46) Vyjde DM1 = -0,450446, HM1 = 6,293246 S pravděpodobností aspoň 0,95 tedy -0,45 cm < μ[1 ]– μ[2] < 6,29 cm. Úkol 7.: Na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty výšek studentek oboru nh a inf jsou shodné. Výpočet doplňte krabicovými diagramy. Návod: Jedná se o dvouvýběrový t-test, kdy testujeme hypotézu proti oboustranné alternativě 1. způsob: lze využít výsledku 6. úkolu. 95% interval spolehlivosti pro rozdíl středních hodnot obsahuje číslo 0, tedy hypotézu o shodě středních hodnot nezamítáme na hladině významnosti 0,05. 2. způsob: dvouvýběrový t-test je implementován ve STATISTICE. Statistiky – Základní statistiky/tabulky – t-test, nezávislé, podle skupin - OK, Proměnné – Závislé proměnné X, Grupovací proměnná Z – OK – Výpočet Komentář: Ve výstupní tabulce najdeme hodnotu testového kritéria (t[0] = 1,744006) a odpovídající p-hodnotu. Protože p-hodnota = 0,087837 je větší než hladina významnosti 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. S rizikem omylu nanejvýš 5% se tedy neprokázal rozdíl mezi středními hodnotami výšek studentek oborů nh a inf. Konstrukce krabicových diagramů: V tabulce t-test, nezávislé, podle skupin zvolíme Krabicový diagram. Dostaneme graf: Komentář: Ze vzhledu krabicových diagramů je vidět, že rozložení výšek v obou skupinách je vcelku symetrické kolem průměru, odlehlé ani extrémní hodnoty se nevyskytují, variabilita vyjádřená směrodatnou odchylkou se liší jen nepatrně a průměrná výška ve skupině studentek oboru inf je o něco menší než ve skupině studentek oboru nh. Poznámka: Protože F-test neprokázal odlišnost rozptylů, mohli jsme ve STATISTICE použít variantu dvouvýběrového t-testu se shodnými rozptyly. Pokud by však F-test zamítl na dané hladině významnosti hypotézu o shodě rozptylů, museli bychom zvolit variantu dvouvýběrového t-testu se separovanými odhady rozptylů. Úkol 8.: Sestrojte 95% asymptotický interval spolehlivosti pro podíl studentek, které mají z matematiky trojku, a to a) pro studentky oboru nh, b) pro studentky oboru inf . Návod: Použujeme vzorce pro dolní a horní mez intervalu spolehlivosti pro parametr alternativního rozložení (viz skripta Základní statistické metody, Důsledek 6.3.2.2.). Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr jsou: . Výběrové průměry pro první a druhý výběr zjistíme pomocí Tabulek četností Z tabulek plyne, že . K datovému souboru přidáme čtyři nové proměnné DM2, HM2, DM3, HM3 Do Dlouhého jména DM2 napíšeme =17/28-sqrt((17/28)*(1-17/28)/28)*VNormal(0,975;0;1) Do Dlouhého jména HM2 napíšeme =17/28+sqrt((17/28)*(1-17/28)/28)*VNormal(0,975;0;1) Do Dlouhého jména DM3 napíšeme =6/20-sqrt((6/20)*(1-6/20)/20)*VNormal(0,975;0;1) Do Dlouhého jména HM3 napíšeme =6/20+sqrt((6/20)*(1-6/20)/20)*VNormal(0,975;0;1) Vyjde: DM2 = 0,426246, HM2 = 0,78804, DM3 = 0,099163, HM3 = 0,500837. Komentář: Znamená to tedy, že podíl studentek oboru nh (resp. inf), které mají trojku z matematiky, se s pravděpodobností aspoň 0,95 pohybuje od 42,6% do 78,8% (resp. od 9,9% do 50,1%). Úkol 9.: Sestrojte 95% asymptotický interval spolehlivosti pro rozdíl podílu studentek, které mají z matematiky trojku, a to pro studentky oboru nh a inf (0,038 < < 0,584). Návod: K datovému souboru přidáme další dvě proměnné DM4 a HM4 pro výpočet dolní a horní meze intervalu spolehlivosti. Do LongName těchto proměnných zapíšeme vzorce pro dolní a horní mez intervalu spolehlivosti pro parametrickou funkci (viz skripta Základní statistické metody, Důsledek 7.2.2.2.). Výběrové průměry pro první a druhý výběr máme zjištěné již z úkolu 8. Meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro jsou: Do Dlouhého jména DM4 napíšeme: =17/28-6/20-sqrt((17/28)*(1-17/28)/28+(6/20)*(1-6/20)/20)*VNormal(0,975;0;1) Do Dlouhého jména HM4 napíšeme: =17/28-6/20+sqrt((17/28)*(1-17/28)/28+(6/20)*(1-6/20)/20)*VNormal(0,975;0;1) Vyjde: DM4 = 0,036848, HM4 = 0,577437. Komentář: Rozdíl podílu studentek oborů nh a inf, které mají z matematiky trojku, se s pravděpodobností aspoň 0,95 pohybuje od 3,7% do 57,7%. Úkol 10.: Na asymptotické hladině významnosti 0,05 testujte hypotézu, že podíl studentek, které mají z matematiky trojku, je stejný pro studentky oboru nh a inf. Návod: Na asymptotické hladině významnosti α testujeme nulovou hypotézu H[0]: = c proti oboustranné alternativě H[1]: ≠ c, kde c = 0. 1. způsob: lze využít výsledku 9. úkolu. 95% asymptotický interval spolehlivosti pro rozdíl parametrů neobsahuje číslo 0, tedy hypotézu o shodě parametrů zamítáme na asymptotické hladině významnosti 0,05. 2. způsob: lze využít kritického oboru (viz skripta Základní statistické metody, Upozornění na str. 92). Protože c = 0, označme vážený průměr výběrových rozptylů. Jako testová statistika slouží , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar Do datového souboru přidáme další proměnné M[*] a T. Jak jsme zjistili v 8. úkolu, n[1] = 28, m[1 ]= , n[2] = 20, m[2][ ]= , tedy n[1]m[1] + n[2]m[2] = 23. Do Dlouhého jména proměnné M[*] napíšeme =23/48. Vyjde m[*] = 0,479167. Do Dlouhého jména proměnné T napíšeme =(17/28-6/20)/sqrt(0,479167*(1-0,479167)*(1/28+1/20)) . Vyjde = 2,100009. Kritický obor je . Protože , zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. 3. způsob: systém STATISTICA umožňuje provádět testy rozdílů mezi dvěma korelačními koeficienty, dvěma průměry či podíly. V našem případě se jedná o test rozdílu mezi dvěma podíly. Stačí znát m[1] = = 0,6071, n[1] = 28, m[2][ ]= = 0,3, n[2] = 20. Statistiky – Základní statistiky/tabulky – Testy rozdílů: r, %, průměry – Rozdíl mezi dvěma poměry – vyplníme příslušná políčka. Dostaneme p-hodnotu 0,0413, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu, že podíl studentek, které mají z matematiky trojku, je stejný pro studentky oboru nh a inf.