Metody statistického odhadu

Náhodný vzorek populace je (statistický) soubor N realizací dané NP stejně pravděpodobný jako ostatní. Pokud NP má hustotu rozdělení $f(x)$, pak vzorek ${\mathbf x}=x_1, x_2 \dots x_N$ má hustotu pravděpodobnosti jako součin $f({\mathbf x}) = f(x_1)\ f(x_2)\ \dots\ f(x_N)= \Pi_{i=1}^N f(x_i) $ (prvky vzorku jsou nezávislé). Z hodnot vzorku ale většinou sestavujeme jedno číslo $y({\mathbf x})$ (odhad = statistics), např. medián nebo aritmetický průměr, které má distribuční funkci v obecnosti danou $$ F_o(y_m) = \int \dots \int \Pi_{i=1}^N f(x_i) d x_i ,$$ kdy integrál probíhá přes oblast všech kombinací splňující $y_m \ge y(\bf{x})$

Pod pojmem odhad se často rozumí výraz určující nějaký parametr rozdělení (střední hodnota, šířka).

viz úvod (různé odhady minimalizují různé veličiny)

efektivnost

  • minimalizujeme $D(\hat{\theta})$ - proměnná s nejmenším rozptylem mezi všemi je efektivní odhad
  • asymptotická efektivnost - nastává pro velká $N \to \infty$

konzistence

  • pro $N \to \infty$ konverguje $\hat\theta \to \theta_0$ a $V(\hat\theta) \to 0$
    (ve skutečnosti jde o slabší podmínku konvergence v pravděpodobnosti $\lim P(|\hat\theta_n-\theta_0|>\epsilon)=0$)

  • např. aritmetický průměr není konzist. odhadem param. polohy $\theta$ Cauchyho rozdělení $$\frac{1}{1+(x-\theta)^2}$$

nestrannost (unbiasedness)

  • $E(\hat\theta) = \theta_0$
  • např. odhad disperze aritm. průměru dat (s norm. rozdělením) pomocí max. věrohodnosti není nestranný

Příklad: jsou-li $x_i$ rovnom. rozdělené náhod. proměnné z intervalu $(0, \theta)$, pak $max(x_1,x_2..x_n)$ je konzistentním, ale vychýleným odhadem $\theta$

robustnost

  • odolnost vůči odlehlým pozorováním (vybočující hodnoty)
  • obecně lze robustnost řešit úpravou váhy jednotlivých členů vzorku, s jakou ovlivňují výsledek - odlehlé body mohou být zcela ignorovány (váha 0). Odlehlost může být posuzována i vzhledem k pořadí v souboru (ořez největších/nejmenších hodnot) - pokud je nahradíme v souboru největší/nejmenší ze zbylých hodnot (zachováváme velikost vzorku), jde o tzv. winsorizaci.

Nejčastěji odhad intervalový (interval spolehlivosti, "konfidenční") $\hat{\theta_0} \pm \sigma$

$$P(\hat{\theta_a} < \theta_0 < \hat{\theta_b}) = \alpha$$

(zadaná hodnota koeficientu spolehlivosti $\alpha$)

Příklad 1

$y_1,...,y_N$ nezávislé, rozd. $N(\theta,\sigma)$ se známým $\sigma$

odhad $$\hat{\theta}=\frac{1}{N} \sum_i^N {y_i}$$ má rozdělení $N(\theta,\sigma/\sqrt{N})$

$\hat{\theta} \pm \sigma/\sqrt{N}$ ... 68% interval (prst, že obsahuje $\theta$)
$\hat{\theta} \pm 2\sigma/\sqrt{N}$ ... 95% interval


Příklad 2

Možná kombinace hodnot proměnných $y_i$ je i maximum souboru hodnot - hodnota $F(y_m)$ daná rovnicí výše se integruje přes obor všech $y_i<=y_m$, tedy $F_{max}(y_m)=F_1(y_m)\ F_2(y_m) \dots F_N(y_m)$, kde $F_i(y)$ je distribuční funkce i-té proměnné ze vzorku. Když jde o výběr téže NP, jsou samozřejmě $F_i=F$ identické, tedy $$F_{max}(y_m)=F(y_m)^N$$.

V případě minima se kombinuje doplněk k distribuční funkci

$$1-F_{min}(y_m)=(1-F(y_m))^N$$


efektivita odhadu středu rozdělení

sada hodnot s D(x)=1

rozdělení median aritm. průměr (max+min)/2
normální $\pi/(2N)$ $1/N$ $\pi^2/(12 \ln N)$
rovnoměrné $1/(4N)$ $1/(12N)$ $1/(2N^2+6N+4)$
dvoj-exponenciální $1/(2N)$ $2/N$ $\pi^2/12$
Cauchyho $\pi^2/(4N)$ $\infty$ $\infty$

Efektivita po ořezání v závislosti na param. $r=(N-n)/2N$ (n extrémních hodnot odstraněno/nahrazeno) po ořezu (vpravo) a winsorizaci (vlevo)

class=left asym.efektivita