logo-IBA logomuni
Přednáška VI.
Intervalové odhady
* Motivace
* Směrodatná odchylka a směrodatná chyba
* Centrální limitní věta
* Intervaly spolehlivosti
esf-komplet-barva.jpg

logo-IBA logomuni
1. Motivace


logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Spolehlivost bodového odhadu
600px-Icon-Warning-Red.svg.png
R
0
x1
tiroles-icon.png african-icon.png arabian-icon.png esquimal-icon.png russian-icon.png
R
0
x2
earth.gif
R
0
x
Umíme-li „změřit“ celou cílovou populaci, nepotřebujeme interval spolehlivosti, protože jsme
schopni odhadnout sledovaný parametr přesně – v praxi je tato situace nereálná.
R
0
x1
R
0
x2
(
)
(
)
Celá cílová populace
Výběr číslo 2
Výběr číslo 1
Pracujeme-li s výběrem z cílové populace, je třeba na základě variability pozorovaných dat spočítat
tzv. interval spolehlivosti pro bodový odhad.
Interval spolehlivosti na základě výběru číslo 1.

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Intervalový odhad
* Bodový odhad je prvním krokem ve statistickém popisu dat.
*
* Co nám říká jedno číslo? Studie 1 může publikovat číslo x1, studie 2 číslo x2. Které je
správnější, lepší, přesnější?
*
* Bodový odhad je sám o sobě nedostatečný pro popis parametru rozdělení pravděpodobnosti náhodné
veličiny.
*
* Zajímá nás přesnost (spolehlivost) bodového odhadu.
600px-Icon-Warning-Red.svg.png

logo-IBA logomuni
2. Variabilita pozorování a variabilita výběrového průměru


logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Populace a náhodná veličina
* Cílová populace – skupina subjektů, o které chceme zjistit nějakou informaci.
* Realizujeme-li náhodně výběr z cílové populace, dostaneme výběrovou populaci (experimentální
vzorek).
*
* Znak X = náhodná veličina X – vlastnost, která nás zajímá.
* Realizace náhodné veličiny – reálné číslo, pozorovaná hodnota na vybraném subjektu.
*
* Náhodný výběr – množina n nezávislých náhodných veličin se stejným rozdělením: X1, X2,…, Xn.
* Realizace náhodného výběru – reálná čísla, hodnoty pozorované na výběrové populaci.
ω1
R
0
x
Náhodná
veličina X

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Pravděpodobnostní chování náhodné veličiny
* F(x), f(x) a p(x) – popisují chování náhodné veličiny úplně, ale složitě.
* Dvě charakteristiky odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptyl.
Odmocnina z rozptylu je směrodatná odchylka.
*
*
* Platí následující:
* Jednotlivé realizace náhodné veličiny vykazují variabilitu (dle SD(X)).
* Jakákoliv statistika (např. průměr) je jako transformace náhodných veličin také náhodnou
veličinou. Má tedy i rozdělení pravděpodobnosti.
* Jednotlivé realizace statistiky nad různými náhodnými výběry také vykazují variabilitu (opět
úměrnou SD(X)).

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Co je zajímavé – výběrový průměr
* Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v
průměru zahrnuto.
*
*
* Rozdělení pravděpodobnosti výběrového průměru se s rostoucím n přestává podobat rozdělení
původních dat a začíná se podobat rozdělení normálnímu.
*
*
* Proč?

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Co je zajímavé – výběrový průměr
* Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v
průměru zahrnuto → plyne z vlastností rozptylu transformované náhodné veličiny.
*
* Rozdělení pravděpodobnosti výběrového průměru se s rostoucím n přestává podobat rozdělení
původních dat a začíná se podobat rozdělení normálnímu → plyne z centrální limitní věty.

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Charakteristiky výběrového průměru
* Máme posloupnost X1, …, Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou
střední hodnotu μ a rozptyl σ2.
Pro odhad, respektive statistiku, se tomuto
výrazu říká směrodatná chyba nebo standardní
chyba („standard error“) a značí se SE.

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Příklad – výběrový průměr
ω1
R
0
x
Náhodná
veličina X
R
0
x3
x1
x2
x5
x4
Náhodný
výběr X1, X2,…, Xn
Výběrový
průměr X
R
0
x

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Shrnutí
* Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)!
*
* Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci.
*
* Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné
veličiny.
*
* Pozor na rozdíl mezi SD a SE v článcích a knihách – tabulkách a grafech!
600px-Icon-Warning-Red.svg.png

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Příklad – výška člověka
* Náhodná veličina bude výška člověka: , tedy uvažujme střední hodnotu 175 cm a směrodatnou
odchylku 15 cm. Jak se chovají průměry pro náhodné výběry o velikosti n = 10, n = 100 a n = 1000?
* Kód v R:
x <- rep(0, 100) # vytvořím si vektor pro ukládání průměrů
for (i in 1:100) {
pom <- rnorm(10, 175, 15)
x[i] <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=10
hist(x, breaks=10, xlim=c(160,190)) # vykreslení histogramu pro výběrové průměry pro n=10
for (i in 1:100) {
pom <- rnorm(100, 175, 15)
x[i] <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=100
hist(x, breaks=10, xlim=c(160,190)) # vykreslení histogramu pro výběrové průměry pro n=100
for (i in 1:100) {
pom <- rnorm(1000, 175, 15)
x[i] <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=1000
hist(x, breaks=10, xlim=c(160,190)) # vykreslení histogramu pro výběrové průměry pro n=1000

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Příklad – výška člověka
hist_mean_n1000.jpeg hist_mean_n10.jpeg hist_mean_n100.jpeg
Výběrové průměry
ze vzorku n = 10
Výběrové průměry
ze vzorku n = 100
Výběrové průměry
ze vzorku n = 1000
* Původní pozorování mají rozsah hodnot zhruba od 120 cm do 220 cm. Kde se pohybují jednotlivé
průměry?

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Příklad – výška člověka
hist_mean_n1000.jpeg hist_mean_n10.jpeg hist_mean_n100.jpeg
Výběrové průměry
ze vzorku n = 10
Výběrové průměry
ze vzorku n = 100
Výběrové průměry
ze vzorku n = 1000
* Původní pozorování mají rozsah hodnot zhruba od 120 cm do 220 cm. Kde se pohybují jednotlivé
průměry?
od 160 cm do 190 cm
od 170 cm do 180 cm
od 173 cm do 177 cm

logo-IBA logomuni
3. Centrální limitní věta


logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Připomenutí: standardizace normálního rozdělení
* Standardizace je transformace náhodné veličiny s N(μ,σ2) na N(0,1).
* Důvod: řada statistických metod byla odvozena pro standardizované normální rozdělení, N(0,1).
Děláme to tedy opět kvůli lepší možnosti hodnocení dat.
*
* Teoretická standardizace náhodné veličiny:
*
* Praktická standardizace naměřených hodnot:
*

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Centrální limitní věta
* Klíčová věta umožňující sestrojení intervalových odhadů.
*
* Máme posloupnost X1, …, Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou
střední hodnotu μ a rozptyl σ2.
*
* Pak platí, že pro má suma Xi       přibližně normální rozdělení pravděpodobnosti.

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Centrální limitní věta
* Máme posloupnost X1, …, Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou
střední hodnotu μ a rozptyl σ2. Pak platí, že pro       má výběrový průměr    přibližně normální
rozdělení se střední hodnotou μ a rozptylem σ2/n.
*
* Tedy má přibližně standardizované normální rozdělení pravděpodobnosti:

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
CLV – zjednodušená interpretace
* Pokud je rozdělení pravděpodobnosti náhodné veličiny normální, pak je i rozdělení průměru
pozorovaných hodnot normální (a to i pro n = 1).
*
* Pokud rozdělení pravděpodobnosti náhodné veličiny není normální, pak je rozdělení průměru
pozorovaných hodnot přibližně normální, když n je dostatečně velké (              ).
*
* „Dostatečně velké“ znamená > 30 pro rozdělení podobná normálnímu
a > 100 pro rozdělení nepodobná normálnímu.

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Co je super…
* Centrální limitní věta funguje i když rozdělení původní náhodné veličiny není normální rozdělení
pravděpodobnosti. A dokonce i když není spojité!

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Příklad – binomické rozdělení
* Chceme sledovat s jakou přesností lze odhadnout podíl hypertoniků v dospělé populaci ČR.
*
* Předpokládejme, že skutečný podíl dospělých s hypertenzí je 0,2.
*
* Náhodná veličina X: osoba trpí / netrpí hypertenzí.
*
* Pravděpodobnostní funkce X
(alternativní rozdělení)
prob_fnc_binom.jpeg
Ne
Ano
Hypertenze

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Příklad – binomické rozdělení
* Náhodná veličina S bude součet Xi, i = 1, …, n.
* Náhodná veličina Y bude definována jako S/n.
*
*
*
*
* Jak se chová Y pro náhodné výběry o velikosti n = 10, n = 100 a n = 1000?

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Příklad – binomické rozdělení
p = 0,2
p = 0,2
p = 0,2
1000 realizací veličiny
Y při n = 10
1000 realizací veličiny
Y při n = 100
1000 realizací veličiny
Y při n = 1000

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Co když ale n nejde do nekonečna?
* Není-li velikost vzorku n dostatečně velká, nelze rozdělení výběrových průměrů považovat za
normální.
*
* Aproximace Studentovým t rozdělením (viz přednáška o jednotlivých rozdělení pravděpodobnosti: Lze
ho chápat jako aproximaci normálního rozdělení pro malé vzorky, pro velké velikosti souborů
konverguje k normálnímu rozdělení).
*

logo-IBA logomuni
4. Intervalové odhady


logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Co je super … pokračování
* Centrální limitní věta mi říká, že rozdělení pravděpodobnosti výběrového průměru můžu při
dostatečném n aproximovat normálním rozdělením.
*
* Když provedu standardizaci, tak dokonce standardizovaným normálním rozdělením.

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Interval spolehlivosti
* Princip vytvoření intervalového odhadu pro výběrový průměr, respektive konstrukce intervalu
spolehlivosti pro výběrový průměr, je shodný s teoretickým pozadím pravidla ± 3σ.
68,3 % všech hodnot
95,6 % všech hodnot
99,7 % všech hodnot

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Kvantily standardizovaného normální rozdělení
* Oblast, kde se náhodná veličina se standardizovaným normálním rozdělením realizuje s
pravděpodobností 1 – α lze vyjádřit pomocí následujícího vztahu:
1 - α
α / 2
α / 2
90 %
95 %
99 %

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Kvantily standardizovaného normální rozdělení
z0,025 = -1,96
z0,050 = -1,64
1,96 = z0,975
1,64 = z0,950
z0,005 = -2,58
2,58 = z0,995
1 - α
α / 2
α / 2
90 %
95 %
99 %
Pravděpodobnosti
Kvantily

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
100(1–α)% interval spolehlivosti pro μ
* Máme náhodný výběr X1, X2, …, Xn z normálního rozdělení.
* Budeme předpokládat, že σ známe!
* Z předchozího snímku víme, že platí:
*
*
* Když si rozepíšeme a upravíme výraz na levé straně, dostaneme:
*
*
*
*
* 100(1–α)% IS pro μ má tvar:

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
100(1–α)% interval spolehlivosti pro μ
* Co ten vzorec znamená?
*
*
*
*
*
*
*
* Tedy zjednodušeně:

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Interpretace intervalu spolehlivosti
* Poloha neznámého parametru je konstantní (jsme-li frekventisti)!
*
* 95% interval spolehlivosti má následující interpretaci:
*
Pokud bychom opakovaně vybírali skupiny subjektů o stejné velikosti (n) a počítali výběrový průměr
s 95% IS, pak 95 % těchto intervalů spolehlivosti neznámý parametr obsahuje a 5 % ho neobsahuje.
Tedy 95% IS obsahuje neznámý parametr s rizikem α.
R
0
μ
x1
(
)
d1
h1
x2
(
)
d2
h2
x3
(
)
d3
h3
x100
(
)
d100
h100
x99
(
)
d99
h99
cca 95 %
cca 5 %
x
(
)
d
h
x
(
)
d
h

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Co když neznáme σ?
* V předchozím případě jsme předpokládali, že známe přesnou hodnotu rozptylu / směrodatné odchylky.
To je v praxi nereálné!
* Musíme použít jinou statistiku s jiným rozdělením pravděpodobnosti.
*
* Čím bychom mohli nahradit σ?
* K čemu to povede?

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Co když neznáme σ?
* Musíme použít jinou testovou statistiku s jiným rozdělením pravděpodobnosti.
*
* Čím bychom mohli nahradit σ?
* Logické je použít výběrovou směrodatnou odchylku s.
* Náhrada ale není úplně jednoduchá – není to dosazení s za σ.
*
* K čemu to bude?
* Pomocí s2 vytvoříme statistiku s chí-kvadrát rozdělením (χ2) – tu pak použijeme pro vytvoření
statistiky se Studentovým t rozdělením (viz přednáška o jednotlivých rozděleních pravděpodobnosti):

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Co když neznáme σ?
* Lze ukázat, že statistika
*
* Použijeme ještě standardizovanou normální veličinu
*
* A obě dohromady použijeme pro vytvoření T statistiky:
*
*
*
* Z toho plyne tvar 100(1–α)% intervalu spolehlivosti pro μ v případě, že neznáme hodnotu σ:

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Příklad – konstrukce intervalu spolehlivosti
* Chceme sestrojit 95% IS pro odhad střední hodnoty systolického tlaku studentů vysokých škol.
naměřené hodnoty
z tabulek

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Šířka intervalu spolehlivosti
* Co ovlivňuje šířku intervalu spolehlivosti?
*
*
*
*
1.Velikost vzorku – s rostoucí velikostí vzorku je IS užší (máme více informace a odhad je
přesnější), zároveň se kvantily t rozdělení blíží kvantilům standardizovaného normálního rozdělení.
2.Variabilita náhodné veličiny
3.Spolehlivost, kterou požadujeme

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Šířka intervalu spolehlivosti
* Co ovlivňuje šířku intervalu spolehlivosti?
*
*
*
*
1.Velikost vzorku
2.Variabilita náhodné veličiny – čím náhodná veličina vykazuje větší variabilitu, tím je IS pro
odhad střední hodnoty širší, tedy odhad je méně přesný.
3.Spolehlivost, kterou požadujeme

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Šířka intervalu spolehlivosti
* Co ovlivňuje šířku intervalu spolehlivosti?
*
*
*
*
1.Velikost vzorku
2.Variabilita náhodné veličiny
3.Spolehlivost, kterou požadujeme – chceme-li mít větší jistotu, že náš IS pokrývá neznámou střední
hodnotu, IS musí být samozřejmě širší, stačí-li nám menší spolehlivost, bude užší. Standardně se
používá 95% IS (ale také 90% anebo 99%)

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Poznámka 1
* Lze vytvořit i IS pro odhad parametru σ, který je založen na již zmíněné statistice K.
*
*
* Lze vytvořit i IS pro odhad podílu dvou parametrů σ1 a σ2 (pomocí F statistiky). Ten lze použít
pro hodnocení homogenity rozptylů dvou výběrů, která je jedním z předpokladů v testování hypotéz.

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Poznámka 2
* Velmi důležitý je i IS pro odhad střední hodnoty rozdílu dvou náhodných veličin.
*
*
*
*
* Známe-li σ1 a σ2, provedeme standardizaci a pak odvodíme 100(1-α)% IS:
*
*
* Neznáme-li σ1 a σ2, použijeme statistiky K1 a K2, abychom se zbavili σ1 a σ2, výsledná statistika
má opět Studentovo t rozdělení.

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Příklad
* Radiofrekvenční ablace tkáně slinivky břišní u prasat. Sledujeme vliv typu chlazení okolních
struktur (A – žádné, B – průplach vodou) na největší rozměr nekrózy. Zajímá nás rozdíl v efektu
obou typů chlazení a jeho 95% IS.
*
*
*
* Dosadíme do vzorce s použitím příslušného t kvantilu:

logo-IBA logomuni logo-IBA logomuni
Tomáš Pavlík
Biostatistika
Poznámka 3
* Interval spolehlivosti počítá pouze s variabilitou danou náhodným výběrem, nepočítá se zdroji
systematického zkreslení.
*
* Příklady:
* Měření krevního tlaku může být systematicky zkresleno starým měřidlem („technical bias“).
* Měření krevního tlaku může být systematicky zkresleno tím, že se do studie přihlásí pouze určitá
skupina osob („selection bias“).