Náhodný vzorek populace je (statistický) soubor N realizací dané NP stejně pravděpodobný jako ostatní. Pokud NP má hustotu rozdělení $f(x)$, pak vzorek ${\mathbf x}=x_1, x_2 \dots x_N$ má hustotu pravděpodobnosti jako součin $f({\mathbf x}) = f(x_1)\ f(x_2)\ \dots\ f(x_N)= \Pi_{i=1}^N f(x_i) $ (prvky vzorku jsou nezávislé). Z hodnot vzorku ale většinou sestavujeme jedno číslo $y({\mathbf x})$ (odhad = statistics), např. medián nebo aritmetický průměr, které má distribuční funkci v obecnosti danou $$ F_o(y_m) = \int \dots \int \Pi_{i=1}^N f(x_i) d x_i ,$$ kdy integrál probíhá přes oblast všech kombinací splňující $y_m \ge y(\bf{x})$
Pod pojmem odhad se často rozumí výraz určující nějaký parametr rozdělení (střední hodnota, šířka).
viz úvod (různé odhady minimalizují různé veličiny)
pro $N \to \infty$ konverguje $\hat\theta \to \theta_0$ a $V(\hat\theta) \to 0$
(ve skutečnosti jde o slabší podmínku konvergence v pravděpodobnosti $\lim P(|\hat\theta_n-\theta_0|>\epsilon)=0$)
např. aritmetický průměr není konzist. odhadem param. polohy $\theta$ Cauchyho rozdělení $$\frac{1}{1+(x-\theta)^2}$$
Příklad: jsou-li $x_i$ rovnom. rozdělené náhod. proměnné z intervalu $(0, \theta)$, pak $max(x_1,x_2..x_n)$ je konzistentním, ale vychýleným odhadem $\theta$
Nejčastěji odhad intervalový (interval spolehlivosti, "konfidenční") $\hat{\theta_0} \pm \sigma$
$$P(\hat{\theta_a} < \theta_0 < \hat{\theta_b}) = \alpha$$
(zadaná hodnota koeficientu spolehlivosti $\alpha$)
$y_1,...,y_N$ nezávislé, rozd. $N(\theta,\sigma)$ se známým $\sigma$
odhad $$\hat{\theta}=\frac{1}{N} \sum_i^N {y_i}$$ má rozdělení $N(\theta,\sigma/\sqrt{N})$
$\hat{\theta} \pm \sigma/\sqrt{N}$ ... 68% interval (prst, že obsahuje $\theta$)
$\hat{\theta} \pm 2\sigma/\sqrt{N}$ ... 95% interval
Možná kombinace hodnot proměnných $y_i$ je i maximum souboru hodnot - hodnota $F(y_m)$ daná rovnicí výše se integruje přes obor všech $y_i<=y_m$, tedy $F_{max}(y_m)=F_1(y_m)\ F_2(y_m) \dots F_N(y_m)$, kde $F_i(y)$ je distribuční funkce i-té proměnné ze vzorku. Když jde o výběr téže NP, jsou samozřejmě $F_i=F$ identické, tedy $$F_{max}(y_m)=F(y_m)^N$$.
V případě minima se kombinuje doplněk k distribuční funkci
$$1-F_{min}(y_m)=(1-F(y_m))^N$$
sada hodnot s D(x)=1
rozdělení | median | aritm. průměr | (max+min)/2 |
---|---|---|---|
normální | $\pi/(2N)$ | $1/N$ | $\pi^2/(12 \ln N)$ |
rovnoměrné | $1/(4N)$ | $1/(12N)$ | $1/(2N^2+6N+4)$ |
dvoj-exponenciální | $1/(2N)$ | $2/N$ | $\pi^2/12$ |
Cauchyho | $\pi^2/(4N)$ | $\infty$ | $\infty$ |
Efektivita po ořezání v závislosti na param. $r=(N-n)/2N$ (n extrémních hodnot odstraněno/nahrazeno) po ořezu (vpravo) a winsorizaci (vlevo)