Vrátíme se k příkladu se stářím a cenami aut. Tentokrát nás bude zajímat závislost ceny aut na stáří aut. V následující tabulce jsou zaznamenány ceny aut v tisících a jejich stáří v letech, jedná se o vozy stejné značky. Zjistěte regresní přímku a index determinace.
stáří auta | 8 | 12 | 14 | 13 | 6 | 13 | 16 | 14 | 11 | 9 |
cena auta | 156 | 124 | 85 | 67 | 254 | 98 | 37 | 55 | 118 | 187 |
- proměnná $ X $ bude stáří aut a proměnná $ Y $ bude cena aut
- budeme hledat regresní přímku a odhady $ b_0, b_1 $ takové, aby součet čtverců odchylek byl co nejmenší $ \Rightarrow $ použijeme tedy metodu nejmenších čtverců
- výpočet $ b_0 $
- $ b_0$ vypočítáme pomocí vzorce $$ b_0=m_2-\frac{s_{12}}{s_1^{2}}m_1 $$
- z předchozích výpočtů víme, že $m_1=11,6, m_2=118\,100 , s_{12}= -176\,160 $ a $ s_1^{2}=8,64 $
- dosazením do vzorce tedy dostáváme $$ b_0=118\,100-\frac{-176\,160}{8,64}\cdot 11,6=354\,611,1 $$
- to znamená, že přímka je posunutá na svislé ose o 354 611,1.
- výpočet $ b_1 $
- $ b_1 $ vypočítáme pomocí vzorce $$ b_1=\frac{s_{12}}{s_1^{2}} $$
- z předchozích výpočtů víme, že $ s_{12}= -176\,160 $ a $ s_1^{2}=8,64 $
- dosazením do vzorce tedy dostáváme $$ b_1=\frac{-176\,160}{8,64}=-20\,388,89 $$
- to znamená, že směrnice přímky je -20388,89, protože $ b_1 \lt 0 $ hodnoty znaku $Y$ jsou na hodnotách znaku $X$ nepřímo závislé
- regresní přímka je tedy tvaru $$ y=354\,611,1-20\,388,89x $$
- reziduální součet čtverců
- reziduální součet čtverců spočítáme ze vzorce: \[ s_E^2=\sum_{i=1}^{10} (y_i-\hat{y_i})^2 \]
- nejdříve spočítáme regresní odhady $\hat{y_i}$, které dostaneme dosazováním $x_i$ do regresní přímky:
- $\hat{y_1}=354611,1-20388,89\cdot8=191\,500$
- $\hat{y_2}=354611,1-20388,89\cdot12=109\,944,4$
- $\hat{y_3}=354611,1-20388,89\cdot14=69\,166,64$
- $\hat{y_4}=354611,1-20388,89\cdot13=89\,555,53$
- $\hat{y_5}=354611,1-20388,89\cdot6=232\,277,8$
- $\hat{y_6}=354611,1-20388,89\cdot13=89\,555,53$
- $\hat{y_7}=354611,1-20388,89\cdot16=28\,388,86$
- $\hat{y_8}=354611,1-20388,89\cdot14=69\,166,64$
- $\hat{y_9}=354611,1-20388,89\cdot11=130\,333,3$
- $\hat{y_{10}}=354611,1-20388,89\cdot9=171\,111,1$
- po dosazení do vzorce dostáváme: $$\begin{align*} s_E^2&=(156\,000-191\,500)^2+(124\,000-109\,944,4)^2+\\&+(85\,000-69\,166,64)^2+(67\,000-89\,555,53)^2+\\&+(254\,000-232\,277,8)^2+(98\,000-89\,555,53)^2+\\&+(37\,000-28\,388,86)^2+(55\,000-69\,166,64)^2+\\&+(118\,000-130\,333,3)^2+(187\,000-171\,111,1)^2=\\&=3\,439\,833\,013 \end{align*}$$
- celkový součet čtverců
- celkový součet čtverců spočítáme ze vzorce: \[ s_T^2=\sum_{i=1}^{10} (y_i-m_2 )^2 \]
- víme, že $ m_2=118\,100 $ a $y_i$ máme v tabulce v zadání
- po dosazení do vzorce dostáváme: $$\begin{align*} s_T^2&=(156\,000-118\,100)^2+(124\,000-118\,100)^2+\\&+(85\,000-118\,100)^2+(67\,000-118\,100)^2+\\&+(254\,000-118\,100)^2+(98\,000-118\,100)^2+\\&+(37\,000-118\,100)^2+(55\,000-118\,100)^2+\\&+(118\,000-118\,100)^2+(187\,000-118\,100)^2=\\&=39\,356\,900\,000 \end{align*}$$
- index determinace spočítáme pomocí vzorce \[ID^2=1-\frac{s_E^2}{s_T^2}\]
- po dosazení do vzorce dostáváme: \[ID^2=1-\frac{3\,439\,833\,013}{39\,356\,900\,000}=0,9126\]
- index determinace nám říká, že proměnná stáří aut vysvětluje 91,26 % variability ceny aut