V urně jsou 3 bílé, 2 modré a 5 červených kuliček. Náhodně vybereme z urny 1 kuličku. Náhodné veličiny $X_1,X_2,X_3$ definujeme následujícím způsobem:
$ X_1 = \begin{cases} 1, & \text{jestliže vytáhneme bílou kuličku} \\ 0, & \text{jestliže vytáhneme modrou nebo červenou kuličku} \end{cases} $
$ X_2 = \begin{cases} 1, & \text{jestliže vytáhneme modrou kuličku} \\ 0, & \text{jestliže vytáhneme bílou nebo červenou kuličku} \end{cases} $
$ X_3 = \begin{cases} 1, & \text{jestliže vytáhneme červenou kuličku} \\ 0, & \text{jestliže vytáhneme bílou nebo modrou kuličku} \end{cases} $
Vypočtěte $var(\textbf{X})$ a $cor(\textbf{X})$ náhodného vektoru $\textbf{X}=(X_1,X_2,X_3)'$.
Víme, že pravděpodobnost vytažení bílé kuličky je $\dfrac{3}{10}$, vytažení modré kuličky je $\dfrac{2}{10}$ a vytažení červené kuličky je $\dfrac{5}{10}$.
Pomocí zadání si vytvoříme tři tabulky se simultánní pravděpodobnostní funkci a marginálními pravděpodobnostními funkcemi podle toho, jakou barvu kuličky vytáhneme:
|
$x_2$ |
$p_1(x_1)$ |
0 |
1 |
$x_1$ |
0 |
5/10 |
2/10 |
7/10 |
1 |
3/10 |
0 |
3/10 |
$p_2(x_2)$ |
8/10 |
2/10 |
1 |
$ p_{1,2}(x_1,x_2)=\begin{cases}
p_{1,2}(0,0)-\text{vytáhneme červenou}\\
p_{1,2}(0,1)-\text{vytáhneme modrou}\\
p_{1,2}(1,0)-\text{vytáhneme bílou}\\
p_{1,2}(1,1)-\text{tato možnost neexistuje} \end{cases}$
|
$x_3$ |
$p_1(x_1)$ |
0 |
1 |
$x_1$ |
0 |
5/10 |
2/10 |
7/10 |
1 |
3/10 |
0 |
3/10 |
$p_2(x_2)$ |
5/10 |
5/10 |
1 |
$ p_{1,3}(x_1,x_3)=\begin{cases}
p_{1,3}(0,0)-\text{vytáhneme modrou}\\
p_{1,3}(0,1)-\text{vytáhneme červenou}\\
p_{1,3}(1,0)-\text{vytáhneme bílou}\\
p_{1,3}(1,1)-\text{tato možnost neexistuje} \end{cases}$
|
$x_3$ |
$p_2(x_2)$ |
0 |
1 |
$x_2$ |
0 |
3/10 |
5/10 |
8/10 |
1 |
2/10 |
0 |
2/10 |
$p_3(x_3)$ |
5/10 |
5/10 |
1 |
$ p_{2,3}(x_2,x_3)=\begin{cases}
p_{2,3}(0,0)-\text{vytáhneme bílou}\\
p_{2,3}(0,1)-\text{vytáhneme červenou}\\
p_{2,3}(1,0)-\text{vytáhneme modrou}\\
p_{2,3}(1,1)-\text{tato možnost neexistuje} \end{cases}$
Při výpočtu marginálních pravděpodobnostních funkcí $p_1(x_1)$, $p_2(x_2)$ a $p_3(x_3)$ jsme využili vztahy (1.7) a (1.8). Správnost marginálních pravděpodobnostních funkcí si můžeme ověřit vztahem (1.4):
\begin{align*}
\sum_{x_1=0}^{1} p_1(x_1)&=1 \quad &\sum_{x_2=0}^{1} p_2(x_2)&=1 \quad &\sum_{x_3=0}^{1} p_3(x_3)&=1\\
\frac{7}{10}+\frac{3}{10}&=1 \quad &\frac{8}{10}+\frac{2}{10}&=1 \quad &\frac{5}{10}+\frac{5}{10}&=1\\
\end{align*}
Varianční matici $var(\textbf{X})$ dostaneme po dosazení do vzorce (1.26). Ještě předtím je třeba si vypočítat kovariance (1.19), rozptyly (1.20), střední hodnoty (1.15) a druhé počáteční momenty (1.18).
Střední hodnoty:
\begin{align*}
E(X_1)&=0\cdot \frac{7}{10}+1\cdot \frac{3}{10}=\frac{3}{10}\\
E(X_2)&=0\cdot \frac{8}{10}+1\cdot \frac{2}{10}=\frac{2}{10}\\
E(X_3)&=0\cdot \frac{5}{10}+1\cdot \frac{5}{10}=\frac{5}{10}.
\end{align*}
Jelikož náhodné veličiny $X_1, X_2, X_3$ nabývají jen dvě hodnoty, 0 a 1, tak pro jejich druhé počáteční momenty platí:
\begin{align*}
E(X_1^2)=E(X_1) \qquad E(X_2^2)=E(X_2) \qquad E(X_3^2)=E(X_3).
\end{align*}
Rozptyly:
\begin{align*}
D(X_1)&=\frac{3}{10}-\biggl(\frac{3}{10}\biggr)^2=0,21\\
D(X_2)&=\frac{2}{10}-\biggl(\frac{2}{10}\biggr)^2=0,16\\
D(X_3)&=\frac{5}{10}-\biggl(\frac{5}{10}\biggr)^2=0,25.\\
\end{align*}
\begin{align*}
E(X_1\cdot X_2)&=0\cdot 0\cdot \frac{5}{10}+0\cdot 1\cdot \frac{2}{10}+1\cdot 0\cdot \frac{3}{10}+1\cdot 1\cdot 0=0.
\end{align*}
Pokud se podíváme na naše tři tabulky, zjistíme, že při náhodných veličinách, které nabývají hodnoty 1,1, je simultánní pravděpodobnostní funkce vždy rovná nule. Dostáváme:
\begin{align*}
E(X_1\cdot X_2)=E(X_1\cdot X_3)=E(X_2\cdot X_3)=0.
\end{align*}
Kovariance:
\begin{align*}
C(X_1,X_2)&=0-0,3\cdot 0,2=-0,06\\
C(X_1,X_3)&=0-0,3\cdot 0,5=-0,15\\
C(X_2,X_3)&=0-0,2\cdot 0,5=-0,10.\\
\end{align*}
Z vlastností kovariance víme:
\begin{align*}
C(X_1,X_2)&=C(X_2,X_1)\\
C(X_1,X_3)&=C(X_3,X_1)\\
C(X_2,X_3)&=C(X_3,X_2).
\end{align*}
Pak je varianční matice:
\begin{align*}
var(\textbf{X})=\begin{pmatrix}
\phantom{-}0,21 & -0,06 & -0,15\\
-0,06 & \phantom{-}0,16 & -0,10\\
-0,15 & -0,10 & \phantom{-}0,25
\end{pmatrix}
\end{align*}
Korelační matici $cor(\textbf{X})$ dostaneme po dosazení do vzorce (1.27). Ještě předtím je třeba si vypočítat koeficienty korelace (1.21).
Koeficienty korelace:
\begin{align*}
R(X_1,X_2)&=\dfrac{-0,06}{\sqrt{0,21} \cdot \sqrt{0,16}} \doteq -0,3273\\
R(X_1,X_3)&=\dfrac{-0,15}{\sqrt{0,21} \cdot \sqrt{0,25}} \doteq -0,6547\\
R(X_2,X_3)&=\dfrac{-0,10}{\sqrt{0,16} \cdot \sqrt{0,25}} \doteq -0,5000.
\end{align*}
Z vlastností korelace víme:
\begin{align*}
R(X_1,X_2)&=R(X_2,X_1)\\
R(X_1,X_3)&=R(X_3,X_1)\\
R(X_2,X_3)&=R(X_3,X_2).
\end{align*}
Pak je korelační matice:
\begin{align*}
cor(\textbf{X})=\begin{pmatrix}
\phantom{-}1 & -0,3273 & -0,6547\\
-0,3273 & \phantom{-}1 & -0,5000\\
-0,6547 & -0,5000 & \phantom{-}1
\end{pmatrix}
\end{align*}
Vytvoříme nový datový soubor se 4 proměnnými a 3 případy – Soubor – Nový – Tabulka dat – Počet Proměnných: 4, Počet případů: 3 – OK – nazveme naše čtyři proměnné X1, X2, X3 a P (X1, X2, X3). Do proměnné X1 napíšeme 1, 0, 0, do proměnné X2 napíšeme 0, 1, 0, do proměnné X3 napíšeme 0, 0, 1 a do proměnné P (X1, X2, X3) napíšeme 3, 2, 5.
Statistiky – Vícenásobná regrese – zavedeme proměnnou vah – Proměnná vah: P(X1,X2,X3) – Stav: Zapn. – OK – Proměnné – Závislá X2,X3 – Nezávislá X1 – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance. Číslo si upravíme na přesný počet desetinných míst – dvakrát klikeneme na název přeměny – Formát zobrazení – Číslo – desetinná místa: 2 – OK. Totéž uděláme i pro proměnnou X2 a X3.
Statistiky – Základní statistiky/tabulky – zavedeme proměnnou vah – Proměnná vah: P(X1,X2,X3) – Stav: Zapn. – OK – Korelační matice – OK – 1seznam proměnných – X1,X2,X3 – OK – Možnosti – odškrtneme možnost: Včetne průměrů a sm.odch. ve čtverc.maticích – Výpočet. Číslo si upravíme na přesný počet desetinných míst – dvakrát klikeneme na název přeměny – Formát zobrazení – Číslo – desetinná místa: 2 – OK. Totéž uděláme i pro proměnnou X2 a X3.
Vyšli nám mírně odlišné hodnoty v kovarianční matici. To je způsobeno tím, že systém STATISTICA používá pro výpočet rozptylu vzorec $\frac{1}{n-1}$ a ne $\frac{1}{n}$.