Téma 6.: Základní pojmy matematické statistiky


Vlastnosti důležitých statistik odvozených z jednorozměrného náhodného výběru:

Nechť X[1], ..., X[n ]je náhodný výběr z rozložení se střední hodnotou μ, rozptylem σ^2 a
distribuční funkcí Φ(x). Nechť n ≥ 2. Označme

 výběrový průměr,

 výběrový rozptyl,

 pro libovolné, ale pevně dané  označme

počet těch veličin X[1], …, X[n], které jsou ≤ x

hodnotu výběrové distribuční funkce.

Pak pro libovolné hodnoty parametrů μ , σ^2 a libovolné, ale pevně dané reálné číslo x platí:

E(M) = μ,

E(S[n]^2) = σ^2,

E(F[n](x)) = Ф(x),

Znamená to, že

- výběrový průměr M je nestranným odhadem střední hodnoty μ,

- výběrový rozptyl S^2 je nestranným odhadem rozptylu σ^2,

- pro libovolné, ale pevně dané  je výběrová distribuční funkce F[n](x) nestranným odhadem
distribuční funkce Φ(x).


Příklad 1.: Ve 12 náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého
výrobku (v Kč): 102,  99,  106,  103,  96,  98,  100,  105,  103,  98,  104,  107. Těchto 12 hodnot
považujeme za realizace náhodného výběru X[1], ..., X[12] z rozložení, které má střední hodnotu μ a
rozptyl σ^2.

a) Určete nestranné bodové odhady neznámé střední hodnoty μ a neznámého rozptylu σ^2.

b) Najděte výběrovou distribuční funkci F[12](x) a nakreslete její graf.

Řešení:

Vypočteme realizaci výběrového průměru

Kč

Vypočteme realizaci výběrového rozptylu:

Kč^2

Pro usnadnění výpočtu hodnot výběrové distribuční funkce F[12](x) uspořádáme ceny podle velikosti:
96, 98, 98, 99, 100, 102, 103, 103, 104, 105, 106, 107.

Číselnou osu rozdělíme na 11 intervalů a v každém intervalu stanovíme hodnotu výběrové distribuční
funkce.


Výpočet pomocí systému STATISTICA:

Otevřeme nový datový soubor o jedné proměnné (nazveme ji X) a 12 případech. Do proměnné X napíšeme
zjištěné ceny.


Výpočet realizace výběrového průměru a výběrového rozptylu:

Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní
výsledky – vybereme Průměr a Rozptyl – Výpočet. Dostaneme tabulku:


Výpočet hodnot výběrové distribuční funkce:

Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Možnosti –
ponecháme zaškrtnuté pouze Kumulativní relativní četnosti – Výpočet.

Ke vzniklé tabulce přidáme jeden případ před první případ (do sloupce Kategorie napíšeme 95) a
jeden případ za poslední případ (do sloupce Kategorie napíšeme 107). Proměnnou Kumulativní rel.
četnost podělíme 100: do jejího Dlouhého jména napíšeme = v2/100.


Kreslení grafu výběrové distribuční funkce:

Nastavíme se kurzorem na proměnnou Kumulativní rel. četnost, klikneme pravým tlačítkem – Grafy
bloku dat – Spojnicový graf: celé sloupce. Ve vytvořeném grafu odstraníme značky, spojnici změníme
na schodovitou a upravíme měřítko na vodorovné ose od 1 do 12.


Vlastnosti důležitých statistik odvozených z dvourozměrného náhodného výběru:

Nechť (X[1],Y[1]), ..., (X[n],Y[n]) je náhodný výběr z dvourozměrného rozložení s kovariancí σ[12]
a koeficientem korelace ρ. Označme

 výběrovou kovarianci,

výběrový koeficient korelace.

Pak pro libovolné hodnoty parametrů  σ[12 ]a ρ platí:

E(S[12]) = σ[12],

E(R[12]) ≈ ρ  (shoda je vyhovující pro n  ≥ 30).

Znamená to, že výběrová kovariance S[12] je nestranným odhadem kovariance σ[12], avšak výběrový
koeficient korelace R[12] je vychýleným odhadem koeficientu korelace ρ.


Příklad 2.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y
označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy.

                                  číslo vzorku

                                              1

                                                2

                                                  3

                                                    4

                                                      5

                                                        6

                                                          7

                                                            8

                                                              9

                                  X

                                              1

                                                4

                                                  5

                                                    9

                                                      11

                                                        13

                                                          23

                                                            23

                                                              28

                                  Y

                                              64

                                                71

                                                  54

                                                    81

                                                      76

                                                        93

                                                          77

                                                            95

                                                              109


Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X[1],Y[1]), ..., (X[9],Y[9])
z dvourozměrného rozložení s kovariancí σ[12] a koeficientem korelace ρ. Najděte bodové odhady
výběrové kovariance σ[12] a výběrového koeficientu korelace ρ.

Výpočet pomocí systému STATISTICA:

Otevřeme nový datový soubor o dvou proměnných X a Y 9 případech. Do proměnných X a Y zapíšeme
zjištěné hodnoty obsafu fosforu v půdě a v obilných klíčcích.

Výpočet výběrové kovariance: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y,
nezávisle proměnná X – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další
statistiky – Kovariance. Dostaneme tabulku:


Vidíme, že výběrová kovariance veličn X, Y se realizuje hodnotou 130. (Výběrový rozptyl proměnné X
resp. Y nabyl hodnoty 91,75 resp. 284,25.)

Výpočet výběrového koeficientu korelace: V menu Další statistiky vybereme Korelace.


Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje
silná přímá lineární závislost.

Upozornění: Výběrový koeficient korelace lze pomocí systému STATISTICA vypočítat i jiným způsobem:
Statistika – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK
– Výpočet. Ve výsledné tabulce máme též realizace výběrových průměrů a směrodatných odchylek.


Vzorce pro meze 100(1-α)% empirického intervalu spolehlivosti pro střední hodnotu μ normálního
rozložení při známém rozptylu σ^2:

Oboustranný: , .

Levostranný: .

Pravostranný: .


Příklad 3.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední
hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním
rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte

a)      99% empirický interval spolehlivosti pro střední hodnotu životnosti

b)      90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti

c)      95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti.

Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minutách.

Řešení:

ad a)

,

2987 h a 6 min < μ < 3012 h a 54 min s pravděpodobností 0,99


Výpočet pomocí systému STATISTICA

Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu.

Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1)

Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1)


ad b)

2993 h a 36 min < μ s pravděpodobností 0,9


Výpočet pomocí systému STATISTICA

Otevřeme nový datový soubor o jedné proměnné d a jednom případu.

Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1)


ad c)

3009 h a 48 min > μ s pravděpodobností 0,95


Výpočet pomocí systému STATISTICA

Otevřeme nový datový soubor o jedné proměnné h a jednom případu.

Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1)


Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět
různé fyzikální jednotky, v našem případě hodiny na minuty.


Základní poznatky o testování hypotéz

Předpokládáme, že testujeme  nulovou hypotézu H[0]: h( ) = c, kde buď proti oboustranné alternativě
H[1]: h( )  c nebo proti levostranné alternativě H[1]: h( ) < c nebo proti pravostranné alternativě
H[1]: h( ) > c.


Testování pomocí kritického oboru

Najdeme testovou statistiku T[0] = T[0](X[1], ..., X[n]). Množina všech hodnot, jichž může testová
statistika nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí
nulové hypotézy (značí se W a nazývá se též kritický obor). W aV jsou odděleny kritickými hodnotami
(pro danou hladinu významnosti α je lze najít ve statistických tabulkách).

Jestliže číselná realizace t[0] testové statistiky T[0] padne do kritického oboru W, pak nulovou
hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované hypotézy.
Jestliže t[0] padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy
jenom připouští.

Stanovení kritického oboru pro danou hladinu významnosti α:

Označme t[min] (resp. t[max]) nejmenší (resp. největší) hodnotu testového kritéria.

Kritický obor v případě oboustranné alternativy má tvar

W = , kde K[α/2](T) a K[1-α/2](T) jsou kvantily rozložení, jímž se řídí testové kritérium T[0],
je-li nulová hypotéza pravdivá.

Kritický obor v případě levostranné alternativy má tvar:

W = .

Kritický obor v případě pravostranné alternativy má tvar:

W = .


Testování pomocí intervalu spolehlivosti

Sestrojíme 100(1-α)% empirický interval spolehlivosti pro parametrickou funkci h( ). Pokryje-li
tento interval hodnotu c, pak H[0] nezamítáme na hladině významnosti α, v opačném případě H[0]
zamítáme na hladině významnosti α.

Pro test H[0] proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti.

Pro test H[0] proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti.

Pro test H[0] proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti.


Testování pomocí p-hodnoty

p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy:

je-li p ≤ α, pak H[0] zamítáme na hladině významnosti α, je-li p > α, pak H[0] nezamítáme na
hladině významnosti α.

Způsob výpočtu p-hodnoty:

Pro oboustrannou alternativu p = 2 min{P(T[0] ≤ t[0]), P(T[0] ≥ t[0])}.

Pro levostrannou alternativu p = P(T[0] ≤ t[0]).

Pro pravostrannou alternativu p = P(T[0] ≥ t[0]).


Příklad 4.: Víme, že výška hochů ve věku 9,5 až 10 let má normální rozložení s neznámou střední
hodnotou μ a známým rozptylem σ^2 = 39,112 cm^2. Dětský lékař náhodně vybral 15 hochů uvedeného
věku, změřil je a vypočítal realizaci výběrového průměru m = 139,13 cm. Podle jeho názoru by výška
hochů v tomto věku neměla přesáhnout 142 cm s pravděpodob-

ností 0,95. Lze tvrzení lékaře akceptovat?

Řešení: Testujeme H[0]: μ = 142 proti H[1]: μ < 142 na hladině významnosti 0,05.

a) Test provedeme pomocí kritického oboru.

Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku
U = ~ N(0, 1). Testová statistika tedy bude T[0] =   a bude mít rozložení N(0, 1), pokud je nulová
hypotéza pravdivá. Vypočítáme realizaci testového kritéria:

t[0] = .

Stanovíme kritický obor: W = .

Protože -1,7773  W, H[0] zamítáme na hladině významnosti 0,05. Tvrzení lékaře lze tedy akceptovat
s rizikem omylu 5 %.


b) Test provedeme pomocí intervalu spolehlivosti.

Meze 100(1-α)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu μ při známém
rozptylu σ^2 jsou: (-∞, h) = (-∞, m +  u[1-α]).

V našem případě dostáváme: h = 139,13 + u[0,95] = 139,13 + 1,645 = 141,79.
Protože 142 (-∞; 141,79), H[0] zamítáme na hladině významnosti 0,05.


c) Test provedeme pomocí p-hodnoty

p = P(T[0] ≤ t[0]) = Φ(-1,7773) = 0,0378

Jelikož 0,0378 ≤ 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05.


Při řešení tohoto příkladu použijeme systém STATISTICA pouze jako inteligentní kalkulátor.