Cvičení 3: Základní pojmy matematické statistiky Úkol 1.: Průzkum chování výběrového průměru a výběrového rozptylu 1. Vytvořte nový datový soubor o 103 proměnných a 100 případech. Pomocí programu gener.svb, který si stáhnete z Učebních materiálů, se naplní prvních 100 proměnných 100 realizacemi náhodných veličin Xi ~ Rs(0,1), i = 1, …, 100, do proměnné v101 se uloží pořadová čísla 1 až 100, do proměnné v102 (resp. v103) se uloží průměry (resp. rozptyly) proměnných v1 až v100. Zdrojový text programu gener.svb: Option Base 1 Sub Main Dim s As Spreadsheet Set s = ActiveSpreadsheet For i = 1 To 100 s.Variable(i).FillRandomValues 'do promennych v1 az v100 se ulozi nahodna cisla z intervalu(0,1) Next i s.VariableLongName(101) = "=v0" 'do promenne v101 se ulozi poradova cisla 1 az 100 s.VariableLongName(102) = "=mean(v1:v100)" 'do promenne v102 se ulozi prumery promennych v1 az v100 s.VariableLongName(103) = "=stdev(v1:v100)^2" 'do do promenne v103 se ulozi rozptyly promennych v1 az v100 s.Recalculate End Sub (Program se spouští pomocí modré šipky na panelu nástrojů.) Proměnnou v101 přejmenujte na PORADI, v102 na PRUMER a v103 na ROZPTYL. 2. Graficky znázorněte hodnoty některé z proměnných v1, …, v100 (např. v1) a hodnoty proměnné PRUMER. Návod: Grafy – Bodové grafy – Typ grafu Vícenásobný – vypneme Lineární proložení – Proměnné X PORADI, Y v1, PRUMER, OK, OK. Vidíme, že hodnoty proměnné v1 se nacházejí mezi 0 a 1, zatímco hodnoty proměnné PRUMER se koncentrují v úzkém pásu kolem 0,5. Znamená to, že průměr funguje jako těžiště dat - eliminuje příliš velké i příliš malé hodnoty. Bodový graf z více proměnných proti poradi Tabulka1 103v*100c Prom1 prumer -20 0 20 40 60 80 100 120 poradi -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 3. Vypočtěte průměr a rozptyl např. proměnné v1 a proměnné PRUMER. Průměr proměnné v1 by měl být blízký 0,5, rozptyl 1/12 = 0,083. Průměr proměnné PRUMER by se měl blížit 0,5, zatímco rozptyl by měl být 100 x menší než 1/12, tj. 0,00083. Dále vypočtěte průměr proměnné ROZPTYL. Měl by se blížit 1/12 = 0,083. Popisné statistiky (uniform) Proměnná Průměr Rozptyl Prom1 PRUMER 0,536605 0,078676 0,503984 0,000783 Popisné statistiky (uniform) Proměnná Průměr ROZPTYL 0,083143 4. Nakreslete histogram pro proměnnou v1 a pro proměnnou PRUMER. První histogram se blíží úsečce, druhý Gaussově křivce. Hist ogram z Prom1 Tabulka1 103v*100c 0,0107 0,1197 0, 2287 0,3377 0,4467 0,5557 0,6647 0,7737 0,8827 0,9917 Prom1 0 2 4 6 8 10 12 14 16 Početpozorování Histogram z prumer Tabulka1 103v*100c prumer = 100*0,0128*normal(x; 0,5029; 0,026) 0,4422 0,4551 0,4679 0,4808 0,4936 0,5065 0,5193 0,5321 0,5450 0,5578 prumer 0 2 4 6 8 10 12 14 16 18 20 Početpozorování Úkol 2.: Ilustrace nestrannosti výběrové distribuční funkce 1. Vytvořte nový datový soubor o třech proměnných a 1000 případech. 2. Do proměnné v1 uložte 1000 realizací náhodné veličiny s rozložením N(0,1) tak, že v Dlouhém jménu použijte příkaz =vnormal(rnd(1);0;1) 3. Hodnoty proměnné v1 setřiďte podle velikosti: Data - Setřídit. 4. Proměnnou v2 transformujte tak, že v Dlouhém jménu použijte příkaz =v0/1000. Tím získáme hodnoty výběrové distribuční funkce. 5. Do proměnné v3 uložte hodnoty distribuční funkce rozložení N(0,1). Do Dlouhého jména napište příkaz =INormal(v1;0;1) 6. Nakreslete dvourozměrný tečkový diagram, kde na osu x vyneste v1 a na osu y v2 a v3. Bodový graf z více proměnných proti Prom1 Tabulka2 3v*1000c Prom2 Prom3 -4 -3 -2 -1 0 1 2 3 4 Prom1 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 Vidíme, že průběh výběrové distribuční funkce F1000(x) (modrá čára) je velmi podobný průběhu distribuční funkce Ф(x) (červená čára). 7. Postup zopakujte pro rozsah výběru n = 100. Uvidíte, že průběh výběrové distribuční funkce F100(x) se od průběhu distribuční funkce Ф(x) liší výrazněji. Úkol 3.: Sledování vlivu rozsahu výběru na šířku intervalu spolehlivosti (při α=0,05) Pro hypotetické náhodné výběry rozsahu n (n = 5, 7, 9, …, 85) z rozložení N(0,1), jejichž výběrové průměry se vždy realizovaly hodnotou 0, vypočtěte dolní a horní meze 95% intervalů spolehlivosti pro µ a graficky znázorněte závislost těchto mezí na rozsahu n. Upozornění: Meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu při známém rozptylu se počítají podle vzorců: d = m - n σ u1-α/2, h = m + n σ u1-α/2 Návod: Z Učebních materiálů stáhněte program intsp1.svb a otevřete ho v programovacím okně. Zdrojový text programu intsp1.svb: Option Base 1 Dim s As Spreadsheet Sub Main alfa = 0.05 'pevně zvolené riziko m = 0 'pevně zvolený průměr sigma = 1 'pevně zvolená směrodatná odchylka n = 3 'počáteční rozsah výběru Set s = ActiveSpreadsheet For I = 1 To 41 s.Cells(I, 2) = m - VNormal(1 - alfa / 2, 0, 1) / Sqrt(n + 2 * I) 'dolní mez intervalu spolehlivosti s.Cells(I, 3) = m + VNormal(1 - alfa / 2, 0, 1) / Sqrt(n + 2 * I) 'horní mez intervalu spolehlivosti s.Cells(I, 1) = n + 2 * I 'zvětšení rozsahu výběru o 2 Next I End Sub Vytvořte nový datový soubor o 3 proměnných a 41 případech. Po spuštění programu intsp1 se do proměnné v1 uloží rozsahy výběrů 5, 7, ..., 85, do v2 (resp. v3) dolní (resp. horní) meze 95% intervalů spolehlivosti pro µ. Vytvoření grafu: Grafy – Bodové grafy – Typ grafu Vícenásobný – vypneme Lineární proložení – Proměnné X v1, Y v2, v3 OK, OK. 0 10 20 30 40 50 60 70 80 90 Prom1 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 Vidíme, že šířka intervalu spolehlivosti klesá se zvětšujícím se rozsahem náhodného výběru, zprvu rychle a pak stále pomaleji. Úkol 4.: Sledování vlivu rizika na šířku intervalu spolehlivosti (při konstantním rozsahu výběru) Pro hypotetický náhodný výběr rozsahu n=25 z rozložení N(0,1), jehož výběrový průměr se realizoval hodnotou 0, vypočtěte dolní a horní meze 100(1-α)% intervalů spolehlivosti (α=0,20, 0,19, …, 0,01) pro µ a graficky znázorněte závislost těchto mezí na riziku α. Návod: Z Učebních materiálů stáhněte program intsp2.svb a otevřete ho v programovacím okně. Zdrojový text programu intsp2.svb: Option Base 1 Dim s As Spreadsheet Sub Main alfa = 0.21 'počáteční hodnota rizika m = 0 'pevně zvolený průměr sigma = 1 'pevně zvolená směrodatná odchylka n = 25 'pevně zvolený rozsah výběru Set s = ActiveSpreadsheet For I = 1 To 20 s.Cells(I, 2) = m - VNormal(1 - (alfa - I / 100) / 2, 0, 1) / Sqrt(n) 'dolní mez intervalu spolehlivosti s.Cells(I, 3) = m + VNormal(1 - (alfa - I / 100) / 2, 0, 1) / Sqrt(n) 'horní mez intervalu spolehlivosti s.Cells(I, 1) = alfa - I / 100 'zmenšení rizika o 1/100 Next I End Sub Vytvořte nový datový soubor o 3 proměnných a 20 případech. Po spuštění programu intsp2 se do proměnné v1 uloží rizika 0,20, 0,19, ..., 0,01, do v2 (resp. v3) dolní (resp. horní) meze 100(1-α)% intervalů spolehlivosti pro µ. Vytvoření grafu: stejným způsobem jako v předešlém případě. 0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 0,20 0,22 Prom1 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 Vidíme, že šířka intervalu spolehlivosti s rostoucím rizikem klesá. Úkol 5.: Testování normality U 45 studentek VŠE v Praze byla zjišťována výška a obor studia (1 – národní hospodářství, 2 – informatika). Hodnoty jsou uloženy v souboru vyska.sta. Pomocí Lilieforsovy modifikace K-S testu, pomocí S-W testu a pomocí A-D testu testujte na hladině významnosti 0,05 hypotézu, že data pocházejí z normálního rozložení. Pomocí N-P grafu posuďte vizuálně předpoklad normality. Návod: 1. způsob provedení Lilieforsova a S-W testu: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Normalita – zaškrtneme Lilieforsův test a S-W test – Testy normality. Testy normality (vyska.sta) Proměnná N max D Lilliefors p W p X: vyska 48 0,155621 p < ,01 0,965996 0,176031 Výstupní tabulka obsahuje počet pozorování, hodnotu testové statistiky Lilieforsovy modifikace K-S testu (max D = 0,155621), p-hodnotu (p < 0,01), testovou statistiku S-W testu (W = 0,965996) a odpovídající p-hodnotu (p = 0,176031). Vidíme, že Lilieforsův test zamítá hypotézu o normalitě na hladině významnosti 0,05, zatímco S-W test nikoli. 2. způsob provedení Lilieforsova a S-W testu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Normalita – zaškrtneme K-S test & Lilieforsův test a S-W test – Tabulky četností (nebo Histogram). Tabulka četností:X: vyska (vyska.sta) K-S d=,15562, p<,20 ; Lilliefors p<,01 Shapiro-WilksW=,96600, p<,17603 Kategorie Četnost Kumulativní četnost Rel.četn. (platných) Kumul. % (platných) Rel.četn. všech Kumul. % všech 150,0000 5,35 Jedná se o jednovýběrový z-test. Testová statistika T0 = n cM σ − bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Provedení testu: Ad a) Pomocí kritického oboru Kritický obor pro oboustrannou alternativu: W = ( )∞∪−∞− α−α− ,uu, 2/12/1 . Kritický obor pro levostrannou alternativu: W = ).u, 1 α−−∞− Kritický obor pro pravostrannou alternativu: W = ),u1 ∞α− . Pokud Wt0 ∈ , H0 zamítáme na hladině významnosti α. Ad b) Pomocí intervalu spolehlivosti Oboustranný interval spolehlivosti pro µ při známém σ: (d, h) = (m - n σ u1-α/2, m + n σ u1-α/2). Pravostranný interval spolehlivosti pro µ při známém σ: (-∞, h) = (-∞, m + n σ u1-α). Levostranný interval spolehlivosti pro µ při známém σ: (d, ∞) = (m - n σ u1-α, ∞). Pokud číslo c (v našem případě 5,35) nepatří do 100(1-α)% intervalu spolehlivosti pro µ, H0 zamítáme na hladině významnosti α. Ad c) Pomocí p-hodnoty Vzhledem k tomu, že testová statistika T0 je spojitá náhodná veličina, můžeme použít úpravu P(T0 ≥ t0) = P(T0 > t0) = 1 – Φ(t0). Vzorec pro výpočet p-hodnoty pro oboustrannou alternativu: p = 2 min{P(T0 ≤ t0), P(T0 ≥ t0)} = 2 min{Φ(t0), 1 – Φ(t0)}. Vzorec pro výpočet p-hodnoty pro levostrannou alternativu: p = P(T0 ≤ t0) = Φ(t0). Vzorec pro výpočet p-hodnoty pro pravostrannou alternativu: p = P(T0 ≥ t0) = 1 – Φ(t0). Pokud p ≤ α, H0 zamítáme na hladině významnosti α. Provedení jednovýběrového z-testu v systému STATISTICA Zjištěné hodnoty zapíšeme do nového datového souboru o 10 případech a jedné proměnné, kterou nazveme X. Pomocí Popisných statistik spočteme realizaci výběrového průměru: m = 5,37. Pro pomocné výpočty otevřeme nový datový soubor o jednom případu a deseti proměnných, které nazveme t0, p1, p2, p3, kv1, kv2, d, h, d1, h2. Do proměnné t0 uložíme realizaci testové statistiky, a to tak, že do jejího Dlouhého jména napíšeme vzorec pro výpočet testové statistiky: = (5,37-5,35)/(0,04/sqrt(10)). Zjistíme, že t0 = 1,5811. Nyní již můžeme provést test pomocí p-hodnoty. Do Dlouhého jména proměnné p1 napíšeme vzorec pro výpočet p-hodnoty pro oboustrannou alternativu: =2*min(INormal(t0;0;1);1-INormal(t0;0;1)) Vypočtená p-hodnota je 0,1138, což je větší než hladina významnosti 0,1 a nulovou hypotézu nelze na této hladině významnosti zamítnout ve prospěch oboustranné alternativy. Do Dlouhého jména proměnné p2 napíšeme vzorec pro výpočet p-hodnoty pro levostrannou alternativu: =INormal(t0;0;1) I tato p-hodnota (0,9431) je větší než 0,1, což znamená, že nulovou hypotézu nelze na hladině významnosti 0,1 zamítnout ve prospěch levostranné alternativy. Do Dlouhého jména proměnné p3 napíšeme vzorec pro výpočet p-hodnoty pro pravostrannou alternativu: =1-INormal(t0;0;1) Vyjde nám 0,0569, tedy na hladině významnosti 0,1 zamítáme nulovou hypotézu ve prospěch pravostranné alternativy. S rizikem omylu nejvýše 10 % jsme prokázali, že střední hodnota délky válečků je větší než 5,35 mm. Dále provedeme test pomocí kritického oboru, nejprve pro oboustrannou alternativu. Do proměnné kv1 uložíme kvantil u1-α/2 = u0,95: = VNormal(0,95;0;1). Vyjde nám 1,6449. Kritický obor pro oboustrannou alternativu je tedy ( )∞∪−∞−= ,6449,16449,1,W . Vidíme, že testová statistika nepatří do W, což znamená, že H0 nezamítáme na hladině významnosti 0,1 ve prospěch oboustranné alternativy. Pro testování nulové hypotézy proti jednostranným alternativám musíme znát kvantil u1-α = u0,9. Uložíme ho do proměnné kv2: = VNormal(0,9;0;1). Vyjde nám 1,2816. Kritický obor pro levostrannou alternativu je tedy ).2816,1,W −∞−= Vidíme, že testová statistika 1,5811 nepatří do W, což znamená, že H0 nezamítáme na hladině významnosti 0,1 ve prospěch levostranné alternativy. Kritický obor pro pravostrannou alternativu je tedy ),2816,1W ∞= Vidíme, že testová statistika1,5811 patří do W, což znamená, že H0 zamítáme na hladině významnosti 0,1 ve prospěch pravostranné alternativy. Nakonec provedeme test pomocí intervalu spolehlivosti. Pro oboustrannou alternativu: Do Dlouhého jména proměnné d (resp. h) napíšeme vzorec pro dolní (resp. horní) mez oboustranného 90% intervalu spolehlivosti pro µ při známém σ: =5,37-0,04*kv1/sqrt(10) (resp. =5,37+0,04*kv1/sqrt(10)) Zjistíme, že číslo c = 5,35 patří do intervalu (5,3492; 5,3908), tedy H0 nezamítáme na hladině významnosti 0,1 ve prospěch oboustranné alternativy. Pro levostrannou alternativu: Do Dlouhého jména proměnné h2 napíšeme vzorec pro horní mez pravostranného 90% intervalu spolehlivosti pro µ při známém σ: =5,37+0,04*kv2/sqrt(10) Protože 5,35 patří do intervalu (-∞; 5,3862), H0 nezamítáme na hladině významnosti 0,1 ve prospěch levostranné alternativy. Pro pravostrannou alternativu: Do Dlouhého jména proměnné d2 napíšeme vzorec pro dolní mez levostranného 90% intervalu spolehlivosti pro µ při známém σ: =5,37-0,04*kv2/sqrt(10) Protože 5,35 nepatří do intervalu (5,3538; ∞), H0 zamítáme na hladině významnosti 0,1 ve prospěch pravostranné alternativy.