Metody statistického odhadu¶

N�hodn� vzorek populace je (statistick�) soubor N realizac� dan� NP stejn� pravd�podobn� jako ostatn�. Pokud NP m� hustotu rozd�len� $f(x)$, pak vzorek ${\mathbf x}=x_1, x_2 \dots x_N$ m� hustotu pravd�podobnosti jako sou�in $f({\mathbf x}) = f(x_1)\ f(x_2)\ \dots\ f(x_N)= \Pi_{i=1}^N f(x_i) $ (prvky vzorku jsou nez�visl�). Z hodnot vzorku ale v�t�inou sestavujeme jedno ��slo $y({\mathbf x})$ (odhad = statistics), nap�. medi�n nebo aritmetick� pr�m�r, kter� m� distribu�n� funkci v obecnosti danou $$ F_o(y_m) = \int \dots \int \Pi_{i=1}^N f(x_i) d x_i ,$$ kdy integr�l prob�h� p�es oblast v�ech kombinac� spl�uj�c� $y_m \ge y(\bf{x})$

Pod pojmem odhad se �asto rozum� v�raz ur�uj�c� n�jak� parametr rozd�len� (st�edn� hodnota, ��ka).

viz �vod (r�zn� odhady minimalizuj� r�zn� veli�iny)

efektivnost¶

minimalizujeme $D(\hat{\theta})$ - prom�nn� s nejmen��m rozptylem mezi v�emi je efektivn� odhad
asymptotick� efektivnost - nast�v� pro velk� $N \to \infty$

konzistence¶

pro $N \to \infty$ konverguje $\hat\theta \to \theta_0$ a $V(\hat\theta) \to 0$
(ve skute�nosti jde o slab�� podm�nku konvergence v pravd�podobnosti $\lim P(|\hat\theta_n-\theta_0|>\epsilon)=0$)
nap�. aritmetick� pr�m�r nen� konzist. odhadem param. polohy $\theta$ Cauchyho rozd�len� $$\frac{1}{1+(x-\theta)^2}$$

nestrannost (unbiasedness)¶

$E(\hat\theta) = \theta_0$
nap�. odhad disperze aritm. pr�m�ru dat (s norm. rozd�len�m) pomoc� max. v�rohodnosti nen� nestrann�

P��klad: jsou-li $x_i$ rovnom. rozd�len� n�hod. prom�nn� z intervalu $(0, \theta)$, pak $max(x_1,x_2..x_n)$ je konzistentn�m, ale vych�len�m odhadem $\theta$

robustnost¶

odolnost v��i odlehl�m pozorov�n�m (vybo�uj�c� hodnoty)
obecn� lze robustnost �e�it �pravou v�hy jednotliv�ch �len� vzorku, s jakou ovliv�uj� v�sledek - odlehl� body mohou b�t zcela ignorov�ny (v�ha 0). Odlehlost m��e b�t posuzov�na i vzhledem k po�ad� v souboru (o�ez nejv�t��ch/nejmen��ch hodnot) - pokud je nahrad�me v souboru nejv�t��/nejmen�� ze zbyl�ch hodnot (zachov�v�me velikost vzorku), jde o tzv. winsorizaci.

Nej�ast�ji odhad intervalov� (interval spolehlivosti, "konfiden�n�") $\hat{\theta_0} \pm \sigma$

$$P(\hat{\theta_a} < \theta_0 < \hat{\theta_b}) = \alpha$$

(zadan� hodnota koeficientu spolehlivosti $\alpha$)

Příklad 1¶

$y_1,...,y_N$ nez�visl�, rozd. $N(\theta,\sigma)$ se zn�m�m $\sigma$

odhad $$\hat{\theta}=\frac{1}{N} \sum_i^N {y_i}$$ m� rozd�len� $N(\theta,\sigma/\sqrt{N})$

$\hat{\theta} \pm \sigma/\sqrt{N}$ ... 68% interval (prst, �e obsahuje $\theta$)
$\hat{\theta} \pm 2\sigma/\sqrt{N}$ ... 95% interval

Příklad 2¶

Mo�n� kombinace hodnot prom�nn�ch $y_i$ je i maximum souboru hodnot - hodnota $F(y_m)$ dan� rovnic� v��e se integruje p�es obor v�ech $y_i<=y_m$, tedy $F_{max}(y_m)=F_1(y_m)\ F_2(y_m) \dots F_N(y_m)$, kde $F_i(y)$ je distribu�n� funkce i-t� prom�nn� ze vzorku. Kdy� jde o v�b�r t�e NP, jsou samoz�ejm� $F_i=F$ identick�, tedy $$F_{max}(y_m)=F(y_m)^N$$.

V p��pad� minima se kombinuje dopln�k k distribu�n� funkci

$$1-F_{min}(y_m)=(1-F(y_m))^N$$

efektivita odhadu středu rozdělení¶

sada hodnot s D(x)=1

rozd�len�	median	aritm. pr�m�r	(max+min)/2
norm�ln�	$\pi/(2N)$	$1/N$	$\pi^2/(12 \ln N)$
rovnom�rn�	$1/(4N)$	$1/(12N)$	$1/(2N^2+6N+4)$
dvoj-exponenci�ln�	$1/(2N)$	$2/N$	$\pi^2/12$
Cauchyho	$\pi^2/(4N)$	$\infty$	$\infty$

Efektivita po o�ez�n� v z�vislosti na param. $r=(N-n)/2N$ (n extr�mn�ch hodnot odstran�no/nahrazeno) po o�ezu (vpravo) a winsorizaci (vlevo)

class=left asym.efektivita