M5VM05 Statistické modelování 4. Základy regresní a korelační analýzy
Jan Koláček (kolacek@math.muni.cz)
Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
1/43
Motivace
V předchozím jsme zkoumali jednotlivé jevy (statistické znaky) izolovaně; zabývali jsme se tzv. jednorozměrnými soubory, tj. soubory popisujícími pouze jeden statistický znak a nezajímaly nás jeho vazby a vztahy k jiným jevům. V reálném světě (v přírodě, společnosti, ekonomice,. ..) se ovšem jevy nacházejí ve více nebo méně složitých vzájemných vztazích - navzájem na sobě závisí a podmiňují se. Proto se statistická analýza nemůže omezit pouze na zkoumání izolovaných jevů, ale musí se také zabývat analýzou jejich vzájemných vztahů. Tato analýza se dá obecně rozdělit na dvě části: regresní a korelační.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
2/43
Úloha regresní analýzy
Hlavní úlohou regresní analýzy je provést predikci nějaké závisle proměnné náhodné veličiny Y na základě informace, kterou poskytují měření nějakých jiných náhodných veličin, řekněme X\,...,X^. Veličinám X\,...se potom říká nezávisle proměnné nebo též doprovodné proměnné, nebo také kovariáty. Měření nezávislých proměnných jsou pro experimentátora snáze dostupné než měření závisle proměnné Y.
Predikce spočívá v nalezení nějaké funkce g(X\,... ,X^), která vhodně aproximuje závisle proměnnou Y. Kvalita predikce se obvykle posuzuje pomocí tzv. střední kvadratické chyby predikce E[Y — g{X\,... ,X^)]2. Za optimální se považuje volba takové predikční funkce g, která uvedenou střední kvadratickou chybu minimalizuje.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
3/43
Úloha korelační analýzy
Vedle průběhu sledované závislosti Y na Xi,...,X^ dané funkcí g je také třeba se zaměřit na měření těsnosti tohoto vztahu, tedy je nutné zavést nějaké míry velikosti statistické vazby (závislosti) závisle proměnné Y na nezávisle proměnných Xi,... ,Xfc s ohledem na vybranou funkci g a případně také s ohledem na závislosti mezi náhodnými veličinami Xi,...,X^. Tato problematika je hlavní úlohou korelační analýzy. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od — 1 do 1). Čím je takový koeficient bližší 1 (resp. —1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší.
Korelační analýza většinou přirozeně navazuje na regresní analýzu. Nejprve pomocí regresní analýzy najdeme nějaký model závislosti v datech. Poté pomocí korelační analýzy zkoumáme vhodnost tohoto modelu.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
4/43
Optimální volba predikční funkce g
Věta 1
Nechť Y, X\,..., Xfc jsou náhodné veličiny. Označme X = (Xj,..., X^)' a nechť EY2 < oo. Pak pro každou měřitelnou funkci
g : Kk R
E(y-^(x))2>E[y-E(y|x)~
a rovnost v uvedené nerovnosti nastává právě když
P(g(X) = E(Y|X)) = 1.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
5/
Podmíněná střední hodnota
Z = (Y/X)' .. .sdruž, hustota f(y,x); X a Y ... margin. hustoty/x(x), fy(y)
Označme Mx = {x G R :/x(x) > 0}, My = {y G R :/y(y) > 0}.
Pak podmíněná distribuční funkce je v tomto případě definována vztahem
( y
a podmíněná hustota je rovna
/ *Mdt   pro i £ Mx,
00
fx(x)
o
pro x G R \ Mx
pro x <G Mx,
0 proiGR\Mx,
Položme
/z(x) = E(Y|X = x)= í ydF(y\x) = í J^'%} dy,   pro Vx G Mx
Pak náhodnou veličinu
E(Y|X) = /z(X) nazveme podmíněnou střední hodnotou.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
6/43
Vlastnosti
o Nechť Yi,Y2,Xjsou náhodné veličiny a aQ,a\,a2 Jsou reálné konstanty, pak pokud střední hodnoty EY\,EY2 existují, platí
E(a0+fliYi +a2Y2\X) =flo+fliE(Yi|X) +a2E(Y2\X). • Nechť X, Y jsou náhodné veličiny a střední hodnota EY existuje, pak
E [E{Y\X)] = EY.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
7/
Podmíněný rozptyl
Definujeme také podmíněný rozptyl náhodné veličiny Y při daném X vztahem
D(Y|X) = E | [Y — E(Y|X)]2 |X} .
Platí
DY = E[D(Y\X)]+D[E(Y\X)]. (1)
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
8/43
Korelační koeficient
Definice 2
Pearsonův koeficient korelace náhodných veličin X, Y (které jsou aspoň intervalového charakteru) je definován vztahem
,   , C{X'Y)        pro a/ĎŤX), JdTY) > 0, R(X,Y) = { V^PÔV^m        V   \ )' v
0 jinak,
kde C(X,Y) = E[(X - EX)(Y - EY)] je kovariance náhodných veličin X a Y.
Připomeneme jeho vlastnosti:
• R(X,X) = 1
a R(X/Y)=R(Y/X)
• R(a + bX,c + dY) = sgn(fed)R(X, Y)
• —1 < -R(X, Y) < 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a,b, kde b ^ 0 tak, že P(Y = a + fcX) = 1, přičemž R(X, Y) = 1 pro fe > 0 a R(X, Y) = -1 pro fe < 0.
Z těchto vlastností plyne, že R(X,Y) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y.
Jan Koláček (PřF MU) M5VM05 Statistické modelování 9/43
Vlastnosti
Věta 3
Mějme náhodnou veličinu Y s konečným a nenulovým rozptylem a náhodný vektor X = {X\,... ,Xj.)'. Potom pro libovolnou měřitelnou funkci
g : Rfc ->■ R
takovou, že existuje korelační koeficient R(Y,g(X)) platí
R(Y,g(X))\<R(Y,E(Y\X))
D[E(Y\X)
DY
a rovnost nastává v případě, že D[E(Y\X)] 7^ 0 právě kdyžg(X) je lineární funkcí E(Y\X) skoro všude vzhledem k P. V případě, že D[E(Y\X)] = 0 nastává rovnost při libovolné volbě funkce g.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
10/43
Vlastnosti
Výsledky uvedené v předchozích dvou větách ukazují velký význam podmíněné střední hodnoty E(Y|X) v regresní a korelační analýze.
(1) Z první věty plyne, že nejlepší predikci náhodné veličiny Y pomocí náhodných veličin Xi,...,Xfc, která minimalizuje střední kvadratickou chybu E(Y-g(X))2, dosta neme, když položíme
g(X) = E(Y|X).
V této souvislosti potom nejlepší prediktor g(X) = E(Y|X) nazýváme regresní funkcí náhodné veličiny Y na náhodných veličinách X\,.. .,X^.
(2) Z druhé věty plyne, že regresní funkce E(Y|X) je prediktor, který má ze všech možných prediktorů g(X) největší korelační koeficient s predikovanou náhodnou veličinou Y. To znamená, že regresní funkce E(Y|X) je optimálním prediktorem v tom smyslu, že má maximální statistickou vazbu (měřenou korelačním koeficientem) s predikovanou náhodnou veličinou Y.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
11/43
Korelační poměr
Definice 4
Mějme náhodnou veličinu Y s konečným a nenulovým rozptylem a náhodný vektor X= (Xi,...,X^)/. Potom číslo
,2
Vy\x
d[E(Y\X))
DY
nazýváme korelačním poměrem náhodné veličiny Y na náhodném vektoru X = (Xi,.../X]<:)/, nebo též korelačním poměrem náhodné veličiny Y na náhodných veličinách Xi,...,X^ a pak jej též značíme 7yix    x '
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
12/43
Poznámky
(1) Z předchozích vět plyne, že
r]2Ylx = [R(Y,E(Y\X))} a tedy pro korelační poměr platí nerovnost
0 < 7/2     < L
2
£(Y-£(Y|X))2 2 1 n v vy x-
(2) Po vydělení rovnosti (1) rozptylem DY a jednoduché úpravě dostaneme
DY
Označme symbolem CTy,x střední kvadratickou chybu predikce, když prediktorem je regresní funkce E(Y|X), tj.
aYlx = E(Y-E(Y\X))2, pak díky předchozímu máme
a1
Vy\x = 1
ay\x
DY
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
13/
Z tohoto vztahu plyne velice názorná interpretace korelačním poměru ^y|X-
(a) Je-li střední kvadratická chyba predikce Cy^x = 0, tedy v případě ideální predikce, je korelační poměr t]y^x = 1.
(b) V druhém krajním případě, když střední kvadratická chyba predikce je rovna DY, tj. ŕ7y|X = DY, pak je 7/y|X = 0 a využití informace, kterou o náhodné
veličině Y poskytuje náhodný vektor X, nepřináší žádné zmenšení chyby predikce.
Tedy korelační poměr t]y^x poskytuje míru přesnosti predikce a je velice užitečný při srovnávání různých vektorů doprovodných proměnných.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
14/43
Graficky
y
EY
\D[E(Y\X)]
x
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
15/
Praktický výpočet
Návod 5
Při praktických výpočtech se příslušné rozptyly odhadují výběrovými rozptyly Odhadnutý korelační poměr t]y^ se pak nazývá index determinace.
Nechť tedy máme realizace ... ,yn a jejich predikované hodnoty ... ,ýn Koeficient determinace má tvar
ID =     = 1 -
Sy ^y
fafe
j   n 1   n 1 n
i=l i=l i=l
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
16/43
Příklad
Příklad 1
Při laboratorním pokusu bylo získáno následujících 8 výsledků měření
1 2 3 4 5 6 7 8
Xi    2,2840   2,8170   2,8367   3,5288   4,1031    4,4262    4,5211 4,9446
yi   4,3046   6,3235   3,7082   7,6835   7,0239   8,7973   10,2961 8,4979
Zvolený model nám predikoval tyto hodnoty
ý = (4,2614; 5,3352; 5,3750; 6,7694; 7,9264; 8,5774; 8,7685; 9,6217) Určete index determinace a interpretujte ho.
Jan Koláček (PíF MU)
M5VM05 Statistické modelování
17/43
Řešení
Řešení Ukážeme oba způsoby výpočtu. Vypočteme nejprve příslušné výběrové rozptyly: y = 7,079, s\ = ± E (ý; - 7,079)2 = 3,283, s2? = \ E (yť - y;)2 =
1,131, s2y = ÍE (y, - 7,079)2 = 4,414.
z=l
Podle definice je
2
ÍD =-| = ^ = 0,7438 s2     4,414
nebo
ID = 1 - ^ = 1 - = 0,7438.
s2 4,414
Výsledek lze interpretovat tak, že 74,38% celkové variability je vysvětleno zvoleným modelem.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
18/
Analýza závislosti
Výpočet podmíněné střední hodnoty E(Y|X) vyžaduje znalost sdruženého rozdělení náhodného vektoru Z = (Y,Xi,... ,Xk)r, což činí hlavní potíž, neboť v praktických situacích nebývá sdružené rozdělení vektoru Z = (Y,Xi,...,Xk)r známé. Proto se, pokud to praktická situace dovolí, uvažují pouze lineární modely typu
g(X) = j80 + ftXj + • • • + ($kXk = j80 + j6'X
jestliže označíme jS = (fy,...,fy). Úloha predikce se pak redukuje na nalezení neznámých koeficientů fy,..., fy, které minimalizují střední kvadratickou chybu této predikce, tj.
(fy,...,fyY =    argmin   E(Y - c0 - cxXi-----ckXk)2
(c0/.../cfc)/GRfc+1
Označme Y = fy + j67X nejlepší lineární predikci náhodné veličiny Y. Střední kvadratickou chybu nejlepší lineární predikce označíme tentokrát
crlx = E{Y-p>0-plXf
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
19/43
Koeficient mnohonásobné korelace
Definice 6
Pearsonův korelační koeficient R(Y,Y) označíme py-x a budeme jej nazývat koeficientem mnohonásobné korelace náhodné veličiny Y na náhodném vektoru X = (Xi,...,Xfc)f (nebo též na náhodných veličinách ~X\,...,X^ a pak budeme podrobněji psát pY.(xlf...,xk))-
Definice 7 (Korelační matice)
Nechť X = (Xi,...,Xn)f a Y = (Y\,..., Ym)r jsou náhodné vektory. Potom
matici
R(X,Y) =
/R(Xi,Yi)
\R(Xn,Yl)
R(XltYm)\
R(Xn,Ym)/
(R(Xř/Y;-))ř=1.....n
_/=!,...,m
nazýváme korelační maticí náhodných vektorů X a Y.
Dále matici i?(X,X) budeme značit R(X) a budeme ji nazývat korelační maticí náhodného vektoru X.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
20 / 43
Vlastnosti
Věta 8
Koeficient mnohonásobné korelace py-x má následující vlastnosti
(1) Koeficient mnohonásobné korelace py.\ je vždy nezáporný.
(2) Pomocí regresních koeficientu /5o,/3i, • • •,/3fc jej lze vyjádřit ve tvaru
2 _ Pr-x - -^Y~-
(3) Pomocí korelačních matic jej lze vyjádřit ve tvaru
p2Y.x = R(Y,X)(R(X))-1R(X,Y)
(4) Pomocí reziduálního rozptylu lineární predikce jej lze vyjádřit ve tvaru
cr1
2    _ i uy-x
Py-x = 1
DY
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
21/43
Poznámka
O Vzorec
je vhodný pro výpočet koeficientu mnohonásobné korelace v případě, že je k dispozici vektor regresních koeficientů
O Vzorec
p2.x = R(y/x)(K(x))-1R(x/y)
se využívá v případě, že jsou
k dispozici korelační koeficienty mezi náhodnými veličinami Y,X\,...,X^.
O Identity
Py-x —
1 DY
ukazují, že korelační poměr
7/y|X je roven kvadrátu koeficientu mnohonásobné korelace pyX v případě, že
teoretická regresní funkce g(X) = E(Y|X) je lineární funkcí proměnných Xi,...,Xfc. Dále je z tohoto vzorce patrné, že pokud se omezíme na lineární predikce, je interpretace koeficientu mnohonásobné korelace stejná jako je interpretace korelačního poměru v obecném případě.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
22 / 43
Pokračování
O Podle uváděných vzorců lze koeficient mnohonásobné korelace py-x počítat i v případě, kdy podmíněná střední hodnota E(Y|X) není lineární. V tomto případě potom díky vztahu (dokázaném ve Větě 1)
E(Y - j80 - jS7X)2 > E[Y - E(Y|X)
2
y-x
-a.
y|x
snadno vidíme, že
0 < p\.x < rj2Y\x < 1
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Vlastnosti
Věta 9
a Cq G R platí
tj. koeficient mnohonásobné korelace je maximálni korelační koeficient mezi náhodnou veličinou Y a libovolnou lineární funkcí Cq + cfX náhodného vektoru X.
i
Důsledek 10
Pro libovolné j = 1,..., k platí
tj. absolutní hodnota libovolného korelačního koeficientu mezi náhodnou veličinou Y a libovolnou z náhodných veličin ~K\,...      je nejvýše rovna koeficientu mnohonásobné korelace mezi náhodnou veličinou Y a náhodným vektorem
ň.x>R2(Y,Xi),
x — (Xi,.. ./X^y.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
24 / 43
Prakticky
Definice 11
Mějme náhodný výběr rozsahu n s vektory Xi = (^^j >- • -/^n = (jzf^J ' ^e pro i = 1,... ,n jsou náhodné vektory Yz- typu p x 1 a Zz- typu íjxl, přičemž
p +  = k.
Definujme výběrové kovarianční matice
n
srz = ^rĽ Vi ~ Y) (zi " z)' = (s«/)      (tyPu P x <?)'
1=1
kde
n
i=i
vv
a výběrovou korelační matici
z=l
Jan Koláček (PřF MU)
Si
IJ
M5VM05 Statistické modelování
25/
Prakticky
Definice 12
Mějme náhodné vektory
kde Yj jsou náhodné veličiny a
Xj   (z = 1, • • • ,n) jsou náhodné vektory typu p x 1.
Jestliže matice Rxx Je regulární, pak výběrový koeficient mnohonásobné korelace je definován vztahem:
rY-X — RYXRXXRXY'
Návod 13 (praktický výpočet)
V praxi se většinou výběrový koeficient mnohonásobné korelace počítá pomocí nějakého software. Hledání inverzní matice R-^ může být obecně složitý proces, proto ještě uvedeme alternativní výpočet. Položme Z = (Y,X) a R = Rzz- P^k
ry.x = 1 "
det(R) det(Rxx)'
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
26 / 43
Příklad
Příklad 2
Zjišťujeme závislost koncentrace ozónu3 (proměnná Y) ve spodních vrstvách atmosféry na meteorologických podmínkách, které jsou popsány intenzitou slunečního záření (Xi), rychlosti větru (X2) a teplotě vzduchu (X3). Naměřená data udává následující tabulka.
i	Y	Xi	x2	x3
1	23	148	8,00	82
2	21	191	14,90	77
3	37	284	20,70	72
4	20	37	9,20	65
5	12	120	11,50	73
6	13	137	10,30	76
7	135	269	4,10	84
8	49	248	9,20	85
9	32	236	9,20	81
10	64	175	4,60	83
Vypočtěte výběrový koeficient mnohonásobné korelace.
ačást datového souboru airquality implementovaného v jazyce R
Jan Koláček (PřF MU) M5VM05 Statistické modelování
27/
Řešení
Řešení RYX = (0,55;-0,51; 0,54)
1,00    0,19 0,60 Rxx = | o, 19    1,00    -0,52 0,60   -0,52    1,00
Její inverze je tvaru
3,29
RxX = [ -2,25    2,91 -3,13    2,85
r\ _-i
a celkově dostáváme 7yX = RyxRx^Rxy = 0,8557.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Řešení
Pokud bychom použili druhý způsob uvedený v Návodu 17, je třeba vypočítat matici R, kterou lze z předešlého vyjádřit R = f „} I. tj
V Kvit K----
'YX
XX
R =
/ 1,00 0,55 -0,51 V 0,54
0,55 1,00 0,19 0,60
-0,51 0,19 1,00
-0,52
0,54 \ 0,60 -0,52 1,00 )
Pak
4.x = i
det(R)
= 1
0,032
= 0,8557.
det(Rxx)     " 0,22
Hodnota tohoto koeficientu poukazuje na do jisté míry velkou lineární závislost proměnné Y na ostatních proměnných. Tato hodnota je však značně ovlivněna také korelacemi proměnných X\, X2 a X3 mezi sebou. Při pohledu na prvky matice Rxx vidíme, že je např. významná korelace mezi intenzitou slunečního záření (Xi) a teplotou vzduchu (X3). Pro vyloučení těchto vlivů je třeba spočítat parciální korelační koeficienty - viz dále.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
29 / 43
Parciální korelační koeficient
Budeme uvažovat náhodné veličiny
y,z, X\,... ,Xfc.
Motivací k zavedení tohoto korelačního koeficientu je fakt, že korelační koeficient R{Y,Z) mezi náhodnou veličinou Y b Z může být dosti vysoký proto, že obě náhodné veličiny jsou silně závislé na náhodném vektoru X= {X\,...,X^)'. Zajímá nás proto, jaká by byla korelace mezi y a Z při vyloučení vlivu, který je způsoben náhodným vektorem X.
Toto odstranění vlivu náhodného vektoru X lze uskutečnit tak, že se sleduje korelace mezi y a Z při pevných hodnotách náhodného vektoru X. Protože v praktických situacích není možné uspořádání experimentu takovým způsobem, aby byla provedena eliminace vlivu náhodného vektoru X, je třeba ji provést pomocí vhodného matematického modelu. Obdobně jako v případě koeficientu mnohonásobné korelace se omezíme pouze na lineární vztahy.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Definice
Označme Y a Z nejlepší lineární predikce náhodných veličin Y a Z pomocí náhodného vektoru X. Korelaci očištěnou od vlivu náhodného vektoru X dostaneme, budeme-li počítat korelaci R(Y — Y,Z — Z).
Definice 14
Nechť existuje korelační koeficient R(Y — Y,Z — Z). Potom jej budeme nazývat parciálním korelačním koeficientem náhodných veličin Y a Z při pevném X a budeme jej značit
pYtZ.x = R(Y-Y,Z-Z).
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
31/43
Vlastnosti
Věta 15
Pro parciální korelační koeficient náhodných veličin Y a Z při pevném X platí
Py,z-x —
R(Y,Z) -R(Y/X)(R(X)y1R(X/Z)
1-py-x) (1-Pz-x
Z hodnoty korelačního koeficientu R(Y,Z) nelze usuzovat na velikost parciálního korelačního koeficientu pyfz-x- Tyto dva koeficienty se od sebe mohou dosti odlišovat, mohou mít i různé znaménko a v případě, že jeden z nich je roven nule, může být druhý různý od nuly a podobně. Jejich vztah je tedy odlišný od vztahu R(Y,Xj) a jOy.x, který dává Důsledek 15.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Prakticky
Definice 16
(Yl\ (Yn
Mějme náhodné vektory \Z\   , • • • , \Zn ] , kde Y\, Zj jsou náhodné veličiny a
Xj   (z = 1, • • • ,n) jsou náhodné vektory typu p x 1. Pak výběrový parciální korelační koeficient je definován vztahem
2 2 2
ryz ry-xrz-x
(1 - 4.x) (1 - r|.x)
kde fyZ je výběrový koeficient korelace náhodných veličin Y, Z b ry.x, r|.x jsou příslušné výběrové koeficienty mnohonásobné korelace.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
33 / 43
Prakticky
Návod 17
V praxi se pro výpočet parciálního korelačního koeficientu používa následujícího postupu. Položme W = (Y, Z, X) a R = Rww- Päk
det(R(12
rY,Z-x —
det(R(11))det(R(22))
kde R^y^ je submatice, která vznikne z R vynecháním i-tého řádku a j-tého sloupce.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
34 / 43
Příklad
Příklad 3
Na datech z Příkladu 2 vypočtěte parciální korelační koeficient ľYix1-(x2,x3)
Řešení Připomeňme matici R, která byla tvaru
R =
/ 1,00 0,55 -0,51 V 0,54
0,55 1,00 0,19 0,60
-0,51 0,19 1,00
-0,52
0,54 \ 0,60 -0,52 1,00 )
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
35 / 43
Řešení
Příslušné submatice jsou
R(ll) -
R(12) -
R(22)
Po dosazení dostáváme
a, oo	0,19	0,60 ^
0,19	1,00	-0,52
v0,60	-0,52	1,00 )
0,55	0,19	0,60
-0,51	1,00	-0,52
0,54	-0,52	1,00
1,00	-0,51	0,54
-0,51	1,00	-0,52
0,54	-0,52	1,00
0,2827
fy'Xl' (X2'Xs}     V0,2220 -0,4654
= 0,8795.
Výsledek lze interpretovat jako velikost lineární závislosti ozónu na intenzitě slunečního záření s vyloučením vlivu rychlosti větru a teploty vzduchu. Podobně by šlo zkoumat ostatní vazby mezi proměnnými.
Jan Koláček (PřF MU) M5VM05 Statistické modelování 36 / 43
Úlohy k procvičení
Příklad 1
V tabulce jsou uvedeny výsledky měření (xj,yj) a predikované hodnoty ýif i = 1,..., 10
i	i	2	3	4	5	6	7	8	9	10
Xj	1,60	1,86	2,21	2,29	3,38	3,42	3,62	3,65	3,76	4,27
	3,24	3,12	3,81	5,12	6,28	7,15	7,33	7,81	8,08	8,43
fa	2,98	3,54	4,31	4,48	6,85	6,94	7,37	7,44	7,68	8,79
Určete index determinace a interpretujte ho.
[id = 0.955327
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
37/43
Úlohy k procvičení
Příklad 2
Během 14-ti dní byla měřena polední teplota vzduchu. K predikci teploty byly použity dva modely - model A a model B. Naměřené hodnoty a predikované hodnoty obou modelů jsou uvedeny v následující tabulce.
12345678	9           10          11 12	13	14
y{         0,35       -1,54       0,47       -0,50       -1,99       -2,17       -1,86 -1,37 ýf       -0,62       -0,75       -0,87       -0,99       -1,11       -1,24       -1,36 -1,48 ýf        -0,17       -0,35       -0,52       -0,70       -0,87       -1,05       -1,22 -1,39	-1,88       -2,30       -2,13 -2,12 -1,60       -1,73       -1,85 -1,97 -1,57       -1,74       -1,92 -2,09	-1,76 -2,09 -2,27	-1,06 -2,22 -2,44
Na základě indexu determinace rozhodněte, který	z modelů je lepší. [IDA = 0,31; ID	B =	0,247
			
Příklad 3
Na datech ze Cvičení 2 byla predikována hodnota polední teploty vzduchu v 15. den. Model A tuto hodnotu odhadl ýf5 = —2,34, predikce pomocí modelu B byla ý^5 — —2,61. Ve skutečnosti byla naměřena hodnota 1/15 = —1,34. Na nových datech opět porovnejte oba modely pomocí indexu determinace.
[IDA = 0,22; IDB = 0,097
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
38 / 43
Úlohy k procvičení
Příklad 4
Zjišťujeme závislost spotřeby paliva osobních automobilů3 (proměnná Y, počet mil/galon) na vlastnostech motoru, které jsou popsány objemem válců (X\, kubické palce), výkonem (X2, počet koní), hmotností vozidla (X3, kilolibry) a zrychlením pQ, počet sekund na 1/4 míle). Naměřená data udává tabulka na další straně.
Vypočtěte závislost spotřeby paliva osobních automobilů na objemu válců, výkonu, hmotnosti a zrychlením vozidla.
[r\.x = 0,9347
ačást datového souboru mtcars implementovaného v jazyce R
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
39 / 43
Model (r.v. 1974)       Y        X1        X2       X3 X4
Mazda RX4 Wag	21,00	160,00	110,00	2,88	17,02
Datsun 710	22,80	108,00	93,00	2,32	18,61
Hornet 4 Drive	21,40	258,00	110,00	3,21	19,44
Valiant	18,10	225,00	105,00	3,46	20,22
Merc 280C	17,80	167,60	123,00	3,44	18,90
Cadillac Fleetwood	10,40	472,00	205,00	5,25	17,98
AMC Javelin	15,20	304,00	150,00	3,44	17,30
Fiat Xl-9	27,30	79,00	66,00	1,94	18,90
Porsche 914-2	26,00	120,30	91,00	2,14	16,70
Ford Pantera L	15,80	351,00	264,00	3,17	14,50
n Koláček (PřF MU)
M5VM05 Statistické modelování
Úlohy k procvičení
Příklad 5
V rámci biometrického výzkumu byl na jednotlivých stromech zjišťován vztah mezi veličinami objem (Y, m3), výčet ní tloušťka (X\, cm), výška (X2, m) a délka zelené koruny (X3, m). Naměřené hodnoty jsou uvedeny v tabulce na další straně. Vyšetřete korelační závislost objemu na tloušťce, výšce a délce zelené koruny.
/& x = 0,96347
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
41/43
Strom	Y	Xi	x2	x3
1	0,013	8	9,8	3,6
2	0,021	8	10,2	3,6
3	0,012	7	9,4	3,0
4	0,009	7	7,8	1,4
5	0,065	12	11,2	4,6
6	0,071	12	12,0	5,1
7	0,102	13	13,5	6,9
8	0,048	10	12,1	4,6
9	0,049	11	10,8	4,3
10	0,011	7	8,9	3,9
11	0,017	8	9,3	3,5
12	0,059	11	12,0	4,8
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
42 / 43
Úlohy k procvičení
Příklad 6
Na datech ze Cvičení 4 vypočtěte parciální korelační koeficienty rY/x1-(x2,x3,x4)'
rY,Xr{XlrX3rX4)' rYA-(Xi^2Ä)' rY,Xi-(X1,X2,X3)-
Kxr(x2,x3,x4) = 0,2319; rY/X2.(Xl/X3/X4) = -0,5219; rY/X3.(Xi/X2/X4) = -0,7405; rY,x4-(Xi,X2,x3) = -0,0736.]
Příklad 7
Na datech ze Cvičení 5 vypočtěte všechny parciální korelační koeficienty.
Kxr(x2/x3) = 0,8558; rY/X2.(XlÄ) = 0,1938; ryÄ.(XlÄ) = 0,2974; rX1/X2-(Y,x3) = 0,1248; rXl/X3.(Y/X2) = -0,22; rX2Ä.(YÄ) = 0,6161.]
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
43 / 43