Cvičení 3: Základní pojmy matematické statistiky I
Úkol 1.: Průzkum chování výběrového průměru a výběrového rozptylu
1. Vytvořte nový datový soubor o 103 proměnných a 100 případech. Pomocí programu
gener.svb, který si stáhnete z Učebních materiálů, se naplní prvních 100 proměnných 100
realizacemi náh. veličin Xi ~ Rs(0,1), i=1, …, 100, do proměnné v101 se uloží pořadová čísla
1 až 100, do proměnné v102 (resp. v103) se uloží průměry (resp. rozptyly) proměnných v1 až
v100.
Option Base 1
Sub Main
Dim s As Spreadsheet
Set s = ActiveSpreadsheet
For i = 1 To 100
s.Variable(i).FillRandomValues
'do promennych v1 az v100 se ulozi nahodna cisla z intervalu(0,1)
Next i
s.VariableLongName(101) = "=v0"
'do promenne v101 se ulozi poradova cisla 1 az 100
s.VariableLongName(102) = "=mean(v1:v100)"
'do promenne v102 se ulozi prumery promennych v1 az v100
s.VariableLongName(103) = "=stdev(v1:v100)^2"
'do do promenne v103 se ulozi rozptyly promennych v1 az v100
s.Recalculate
End Sub
(Makro se spouští pomocí modré šipky na panelu nástrojů.)
Proměnnou v101 přejmenujte na PORADI, v102 na PRUMER a v103 na ROZPTYL. Vzniklý
datový soubor uložte pod názvem uniform.sta.
2. Graficky znázorněte hodnoty některé z proměnných v1, …, v100 (např. v1) a hodnoty
proměnné PRUMER.
Návod: Grafy – Bodové grafy – Typ grafu Vícenásobný – vypneme Lineární proložení –
Proměnné X PORADI, Y v1, PRUMER, OK, OK. Vidíme, že hodnoty proměnné v1 se
nacházejí mezi 0 a 1, zatímco hodnoty proměnné PRUMER se koncentrují v úzkém pásu
kolem 0,5.
Bodový graf z více proměnných proti poradi
Tabulka1 103v*100c
Prom1
prumer
-20 0 20 40 60 80 100 120
poradi
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
3. Vypočtěte průměr a rozptyl např. proměnné v1 a proměnné PRUMER. Průměr proměnné
v1 by měl být blízký 0,5, rozptyl 1/12 = 0,083. Průměr proměnné PRUMER by se měl blížit
0,5, zatímco rozptyl by měl být 100 x menší než 1/12, tj. 0,00083. Dále vypočtěte průměr
proměnné ROZPTYL. Měl by se blížit 1/12 = 0,083.
Popisné statistiky (uniform)
Proměnná Průměr Rozptyl
Prom1
PRUMER
0,536605 0,078676
0,503984 0,000783
Popisné statistiky (uniform)
Proměnná Průměr
ROZPTYL 0,083143
4. Nakreslete histogram pro proměnnou v1 a pro proměnnou PRUMER. První histogram se
blíží úsečce, druhý Gaussově křivce.
Histogram z Prom1
Tabulka1 103v*100c
0,0107 0,1197 0,2287 0,3377 0,4467 0,5557 0,6647 0,7737 0,8827 0,9917
Prom1
0
2
4
6
8
10
12
14
16
Početpozorování
Histogram z prumer
Tabulka1 103v*100c
prumer = 100*0,0128*normal(x; 0,5029; 0,026)
0,4422 0,4551 0,4679 0,4808 0,4936 0,5065 0,5193 0,5321 0,5450 0,5578
prumer
0
2
4
6
8
10
12
14
16
18
20
Početpozorování
5. Celý postup zopakujte pro exponenciální rozložení s parametrem λ=2. V programu
gener.stb napište místo s.Variable(i).FillRandomValues
s.VariableLongName(i) = "=Vexpon(rnd(1);2) "
Připomeneme si, že průměr proměnné v1 i průměr proměnné PRUMER by se měl blížit 1/2,
rozptyl proměnné v1 by měl být blízký 1/4 a rozptyl proměnné PRUMER by měl být 100 x
menší, tj. 0,0025. Průměr proměnné ROZPTYL by se neměl příliš lišit od 1/4.
Úkol 2.: Ilustrace nestrannosti výběrové distribuční funkce
1. Vytvořte nový datový soubor o třech proměnných a 1000 případech.
2. Do proměnné v1 uložte 1000 realizací náhodné veličiny s rozložením N(0,1) tak, že
v Dlouhém jménu použijte příkaz =vnormal(rnd(1);0;1)
3. Hodnoty proměnné v1 setřiďte podle velikosti: Data - Setřídit.
4. Proměnnou v2 transformujte tak, že v Dlouhém jménu použijte příkaz =v0/1000.
5. Do proměnné v3 uložte hodnoty distribuční funkce rozložení N(0,1). Do Dlouhého jména
napište příkaz =INormal(v1;0;1)
6. Nakreslete dvourozměrný tečkový diagram, kde na osu x vyneste v1 a na osu y v2 a v3.
Bodový graf z více proměnných proti Prom1
Tabulka2 3v*1000c
Prom2
Prom3
-4 -3 -2 -1 0 1 2 3 4
Prom1
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Vidíme, že průběh výběrové distribuční funkce F1000(x) (modrá čára) je velmi podobný
průběhu distribuční funkce Ф(x) (červená čára).
7. Postup zopakujte pro rozsah výběru n = 100. Uvidíte, že průběh výběrové distribuční
funkce F100(x) se od průběhu distribuční funkce Ф(x) liší výrazněji.
Úkol 3.: Sledování vlivu rozsahu výběru na šířku intervalu spolehlivosti (při α=0,05)
Pro hypotetické náhodné výběry rozsahu n (n = 5, 7, 9, …, 85) z rozložení N(0,1), jejichž
výběrové průměry se vždy realizovaly hodnotou 0, vypočtěte dolní a horní meze 95%
intervalů spolehlivosti pro µ a graficky znázorněte závislost těchto mezí na rozsahu n.
Upozornění: Meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu při
známém rozptylu se počítají podle vzorců: d = m -
n
σ
u1-α/2, h = m +
n
σ
u1-α/2
Návod: Z Učebních materiálů stáhněte program intsp1.svb a otevřete ho v programovacím
okně.
Option Base 1
Dim s As Spreadsheet
Sub Main
alfa = 0.05
'pevně zvolené riziko
m = 0
'pevně zvolený průměr
sigma = 1
'pevně zvolená směrodatná odchylka
n = 3
'počáteční rozsah výběru
Set s = ActiveSpreadsheet
For I = 1 To 41
s.Cells(I, 2) = m - VNormal(1 - alfa / 2, 0, 1) / Sqrt(n + 2 * I)
'dolní mez intervalu spolehlivosti
s.Cells(I, 3) = m + VNormal(1 - alfa / 2, 0, 1) / Sqrt(n + 2 * I)
'horní mez intervalu spolehlivosti
s.Cells(I, 1) = n + 2 * I
'zvětšení rozsahu výběru o 2
Next I
End Sub
Vytvořte nový datový soubor o 3 proměnných a 41 případech. Po spuštění programu intsp1 se
do proměnné v1 uloží rozsahy výběrů 5, 7, ..., 85, do v2 (resp. v3) dolní (resp. horní) meze
95% intervalů spolehlivosti pro µ. Vytvoření grafu: Grafy – Bodové grafy – Typ grafu
Vícenásobný – vypneme Lineární proložení – Proměnné X v1, Y v2, v3 OK, OK.
0 10 20 30 40 50 60 70 80 90
Prom1
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
Vidíme, že šířka intervalu spolehlivosti klesá se zvětšujícím se rozsahem náhodného výběru, zprvu
rychle a pak stále pomaleji.
Úkol 4.: Sledování vlivu rizika na šířku intervalu spolehlivosti (při konstantním rozsahu
výběru)
Pro hypotetický náhodný výběr rozsahu n=25 z rozložení N(0,1), jehož výběrový průměr se
realizoval hodnotou 0, vypočtěte dolní a horní meze 100(1-α)% intervalů spolehlivosti
(α=0,20, 0,19, …, 0,01) pro µ a graficky znázorněte závislost těchto mezí na riziku α.
Návod: Z Učebních materiálů stáhněte program intsp2.svb a otevřete ho v programovacím
okně.
Option Base 1
Dim s As Spreadsheet
Sub Main
alfa = 0.21
'počáteční hodnota rizika
m = 0
'pevně zvolený průměr
sigma = 1
'pevně zvolená směrodatná odchylka
n = 25
'pevně zvolený rozsah výběru
Set s = ActiveSpreadsheet
For I = 1 To 20
s.Cells(I, 2) = m - VNormal(1 - (alfa - I / 100) / 2, 0, 1) / Sqrt(n)
'dolní mez intervalu spolehlivosti
s.Cells(I, 3) = m + VNormal(1 - (alfa - I / 100) / 2, 0, 1) / Sqrt(n)
'horní mez intervalu spolehlivosti
s.Cells(I, 1) = alfa - I / 100
'zmenšení rizika o 1/100
Next I
End Sub
Vytvořte nový datový soubor o 3 proměnných a 20 případech. Po spuštění programu intsp2 se
do proměnné v1 uloží rizika 0,20, 0,19, ..., 0,01, do v2 (resp. v3) dolní (resp. horní) meze
100(1-α)% intervalů spolehlivosti pro µ. Vytvoření grafu: stejným způsobem jako
v předešlém případě.
0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 0,20 0,22
Prom1
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
Vidíme, že šířka intervalu spolehlivosti s rostoucím rizikem klesá.