M5VM05 Statistické modelování 4. Základy regresní a korelační analýzy
Jan Koláček (kolacek@math.muni.cz)
Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno
podzim 2013
Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 1/44
Motivace
V předchozím jsme zkoumali jednotlivé jevy (statistické znaky) izolovaně; zabývali jsme se tzv. jednorozměrnými soubory, tj. soubory popisujícími pouze jeden statistický znak a nezajímaly nás jeho vazby a vztahy k jiným jevům. V reálném světě (v přírodě, společnosti, ekonomice,...) se ovšem jevy nacházejí ve více nebo méně složitých vzájemných vztazích - navzájem na sobě závisí a podmiňují se. Proto se statistická analýza nemůže omezit pouze na zkoumání izolovaných jevů, ale musí se také zabývat analýzou jejich vzájemných vztahů. Tato analýza se dá obecně rozdělit na dvě části: regresní a korelační.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013
2/44
Úloha regresní analýzy
Hlavní úlohou regresní analýzy je provést predikci nějaké závisle proměnné náhodné veličiny Y na základě informace, kterou poskytují měření nějakých jiných náhodných veličin, řekněme X\,... , Xj-. Veličinám Xi,...,Xj- se potom říká nezávisle proměnné nebo též doprovodné proměnné, nebo také kovariáty. Měření nezávislých proměnných jsou pro experimentátora snáze dostupné než měření závisle proměnné Y.
Predikce spočívá v nalezení nějaké funkce g(X\,... ,Xj.), která vhodně aproximuje závisle proměnnou Y. Kvalita predikce se obvykle posuzuje pomocí tzv. střední kvadratické chyby predikce E[Y — g(Xi,... ,Xj-)]2. Za optimální se považuje volba takové predikční funkce g, která uvedenou střední kvadratickou chybu minimalizuje.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013
3/44
Úloha korelační analýzy
Vedle průběhu sledované závislosti Y na Xi,...,Xj- dané funkcí g je také třeba se zaměřit na měření těsnosti tohoto vztahu, tedy je nutné zavést nějaké míry velikosti statistické vazby (závislosti) závisle proměnné Y na nezávisle proměnných Xi,...,X£ s ohledem na vybranou funkci g a případně také s ohledem na závislosti mezi náhodnými veličinami Xi,...,X^. Tato problematika je hlavní úlohou korelační analýzy. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od — 1 do 1). Čím je takový koeficient bližší 1 (resp. —1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší.
Korelační analýza většinou přirozeně navazuje na regresní analýzu. Nejprve pomocí regresní analýzy najdeme nějaký model závislosti v datech. Poté pomocí regresní analýzy zkoumáme vhodnost tohoto modelu.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013        4 / 44
Optimální volba predikční funkce g
Věta 1
Nechí Y,Xi,... ,Xfr- jsou náhodné veličiny. Označme X = (Xi, EY2 < oo. Pak pro každou měřitelnou funkci
,Xj-)' a nechí
g:lRk
platí
E(Y-g(X))2>E[Y-E(Y\X)}2 a rovnost v uvedené nerovnosti nastává právě když
P(g(X)=E(Y\X)) = l.
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
podzim 2013        5 / 44
Podmíněná střední hodnota
Z = (Y,X)' . .. sdruž, hustota f{y,x); X a Y . .. margin. hustoty fx{x), /y(y)-
Označme Mx = {ieR :/x(x) > 0}, My = {y E IR :/Y(y) > 0}.
Pak podmíněná distribuční funkce je v tomto případě definována vztahem
F(»|x)=(ÍM* Pr°"Mx'
[o proxe!R\Mx a podmíněná hustota je rovna
[O proxelR\Mx.
Položme
h(x) = E(Y\X = x) = JR VdF(y\x) = JR /yj^j-dy,   Pro Vx e Mx. Pak náhodnou veličinu
E(Y|X) = fr(X) nazveme podmíněnou střední hodnotou.
Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013        6 / 44
Vlastnosti
• Nechť Yi,Y2,Xjsou náhodné veličiny a fl0/fli/fl2 Jsou reálne konstanty, pak pokud střední hodnoty EYi,EY2 existují, platí
E(a0 + fll Yi + fli^ilX) = fl0 + |X) + a2E(Y2\X).
• Nechť X, Y jsou náhodné veličiny a střední hodnota EY existuje, pak
E [E(Y|X)] = EY.
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
podzim 2013        7 / 44
Podmíněný rozptyl
Definujeme také podmíněný rozptyl náhodné veličiny Y při daném X vztahem
D(Y|X) = E | [Y - E(Y|X)]2 |x|.
Platí
DY = E [D(Y|X)] + D [E(Y|X)].
Jan KoláCek (PřF MU)
M5VM05 Statistické modeloval
podzim 2013
Korelační koeficient
Definice 2
Pearsonův koeficient korelace náhodných veličin X, Y (které jsou aspoň intervalového charakteru) je definován vztahem
kde C(X, Y) = E[(X - EX)(Y - EY)] je kovariance náhodných veličin X a Y.
Připomeneme jeho vlastnosti:
• R(X,X) = 1
• R(X,Y) =R(Y,X)
• R(a + bX,c + dY) = sgn(bd)R(X, Y)
• —1 < R(X,Y) < 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a,b, kde b ^= 0 tak, že P(Y = a + i>X) = 1, přičemž R(X, Y) = 1 pro b > 0 a K(X, Y) = -1 pro b < 0.
Z těchto vlastností plyne, že _R(X, Y) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y.
c(x,y)
pro VĎ(X), 7Ď(Y) > 0,
1?(X,Y)
o
jinak,
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013
9/44
Vlastnosti
Věta 3
Mějme náhodnou veličinu Y s konečným a nenulovým rozptylem a náhodný vektor X = (Xi,... ,Xj.)'. Potom pro libovolnou měřitelnou funkci
g : IR^ -> R
takovou, že existuje korelační koeficient R(Y,g(X)) platí \R(Y,g(X))\<R(Y,E(Y\X)) =
P[£(r|x)]
DY
a rovnost nastává v případě, že D[E(Y\X)] 7^ 0 právě kdyžg(X) je lineární funkcí E(Y\X) skoro všude vzhledem k P. V případě, že D[E(Y\X)] = 0 nastává rovnost při libovolné volbě funkce g.
Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013        10 / 44
Vlastnosti
Výsledky uvedené v předchozích dvou větách ukazují velký význam podmíněné střední hodnoty E(Y|X) v regresní a korelační analýze.
(1) Z první věty plyne, že nejlepší predikci náhodné veličiny Y pomocí náhodných veličin Xi,... ,Xj., která minimalizuje střední kvadratickou chybu
E(Y —g(X))2, dostaneme, když položíme
g(X) = E(Y|X).
V této souvislosti potom nejlepší prediktor g(X) = E(Y|X) nazýváme regresní funkcí náhodné veličiny Y na náhodných veličinách Xi,... ,Xj..
(2) Z druhé věty plyne, že regresní funkce E(Y|X) je prediktor, který má ze všech možných prediktorů g(X) největší korelační koeficient s predikovanou náhodnou veličinou Y. To znamená, že regresní funkce E(Y|X) je optimálním prediktorem v tom smyslu, že má maximální statistickou vazbu (měřenou korelačním koeficientem) s predikovanou náhodnou veličinou Y.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013        11 / 44
Korelační poměr
Definice 4
Mějme náhodnou veličinu Y s konečným a nenulovým rozptylem a náhodný vektor X= (Xi,...^)'. Potom číslo
2   _ D[E(Y|X))]
>?y|x - dy
nazýváme korelačním poměrem náhodné veličiny Y na náhodném vektoru X= (Xi,... ,Xj.)', nebo též korelačním poměrem náhodné veličiny Y na náhodných veličinách Xi,..., Xj. a pak jej též značíme J/yix    x •
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
Poznámky
(1) Z předchozích vět plyne, že
V2]X=[R(Y,E(Y\X))}2 a tedy pro korelační poměr platí nerovnost
0 < j#|x < 1.
(2) Po vydělení rovnosti (1) rozptylem DY a jednoduché úpravě dostaneme
„ E(Y-E(Y\X))2 2 1 = --Dy +Vy\
x-
Označme symbolem cr2,x střední kvadratickou chybu predikce, když
prediktorem je regresní funkce E(Y|X), tj.
a2lx = E(Y-E(Y\X))2, pak díky předchozímu máme
2 -i UY\X
nY\x = i" ĎY •
Jan KoláCek (PřF MU)
M5VM05 Statistické modelováni
podzim 2013        13 / 44
Interpretace
Z tohoto vztahu plyne velice názorná interpretace korelačním poměru J/y|X.
(a) Je-li střední kvadratická chyba predikce cr^x = 0, tedy v případě ideální predikce, je korelační poměr       = ^■
(b) V druhém krajním případě, když střední kvadratická chyba predikce je rovna DY, tj. cy|X = DY, pak je ?/y|X = 0 a využití informace, kterou o náhodné veličině Y poskytuje náhodný vektor X, nepřináší žádné zmenšení chyby predikce.
Tedy korelační poměr poskytuje míru přesnosti predikce a je velice užitečný při srovnávání různých vektorů doprovodných proměnných.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013        14 / 44
Graficky
Praktický výpočet
Návod 5
Při praktických výpočtech se príslušné rozptyly odhadují výběrovými rozptyly. Odhadnutý korelační poměr       se Pa^ nazÝva index determinace. Nechí tedy máme realizace y-y,..., yn a jejich predikované hodnoty ýi,..., yn Koeficient determinace má tvar
kde
■y   n 1   n 1 n
s? = - E(fc - y)2> 4y= z E (y*_ 9t)2' sy = - E (y*~ y)2-
í=i i—i i—i
Jan KoláCek (PřF MU)
M5VM05 Statistické modeloval
podzim 2013        16 / 44
Příklad
Příklad 6 Při laboratorním pokusu	bylo získáno následujících 8 výsledků	měření	
1 2	3          4          5 6	7	8
xt    2,2840 2,8170 y i    4,3046 6,3235	2,8367   3,5288   4,1031 4,4262 3,7082   7,6835   7,0239 8,7973	4,5211 10,2961	4,9446 8,4979
Zvolený model nám predikoval tyto hodnoty
y = (4,2614; 5,3352; 5,3750; 6,7694; 7,9264; 8,5774; 8,7685; 9,6217). Určete index determinace a interpretujte ho.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013        17 / 44
Řešení
Řešení Ukážeme oba způsoby výpočtu. Vypočteme nejprve příslušné výběrové rozptyly: y = 7,079, s| = I E (9i - 7,079)2 = 3,283, s2y? = I £ (y,- - ý)2
i=l
i=l
1,131, 4 = g Ľ (y,- - 7,079)2 = 4,414. í'=i
Podle definice je
s| _ 3,283
ID= -4-
s\ 4,414
0,7438
nebo
ÍD = 1_!^ = 1_14§ = 0,7438. s2 4,414
Výsledek lze interpretovat tak, že 74,38% celkové variability je vysvětleno zvoleným modelem.
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
podzim 2013        18 / 44
Analýza závislosti
Výpočet podmíněné střední hodnoty E(y|X) vyžaduje znalost sdruženého rozdělení náhodného vektoru Z = (y, Xi,... ,Xk)', což činí hlavní potíž, neboť v praktických situacích nebývá sdružené rozdělení vektoru Z = (Y,X\,... ,Xk)' známé. Proto se, pokud to praktická situace dovolí, uvažují pouze lineární modely typu
g(X) = /30 + ftXx + ■ ■ ■ + faXk = /30 + jg'X,
jestliže označíme    = (fii,... ,/3j-). Úloha predikce se pak redukuje na nalezení neznámých koeficientů /3q, ... ,/3;t, které minimalizují střední kvadratickou chybu této predikce, tj.
(#),•••,&)'=    argmin   E(Y - c0 - -----ckXk)2
(c0,...,ck)>eRk+1
Označme y = /3q + /3'X nejlepší lineární predikci náhodné veličiny y. Střední kvadratickou chybu nejlepší lineární predikce označíme tentokrát
crlx = E(Y-p0-l5'X)2
Jan KoláCek (PřF MU)
M5VM05 Statistické modelování
podzim 2013        19 / 44
Koeficient mnohonásobné korelace
Definice 7
Pearsonův korelační koeficient R(Y,Y) označíme py-x a budeme jej nazývat koeficientem mnohonásobné korelace náhodné veličiny Y na náhodném vektoru X = (Xi,... ,Xj.)' (nebo též na náhodných veličinách Xi,..., Xj. a pak budeme podrobněji psát py.(Xl,...,xk))-
Definice 8 (Korelační matice)
Nechť X = (Xi,..., X„)' a Y = (Yi,..., Ym)' jsou náhodné vektory. Potom matici
ÍRiX^Y^   ■■■ R(XlfYm)\
R(X,Y)=\ = (R(XitYj)) i=1.....„
^(X^YO   ■■■   R(Xn,Ym)J i=1m
nazýváme korelační maticí náhodných vektorů X a Y.
Dále matici _R(X,X) budeme značit R(X) a budeme ji nazývat korelační maticí náhodného vektoru X.
Jan KoláCek (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       20 / 44
Vlastnosti
Věta 9
Koeficient mnohonásobné korelace pyx má následující vlastnosti
(1) Koeficient mnohonásobné korelace py.x je vždy nezáporný.
(2) Pomocí regresních koeficientu po, fii, ■ ■ ■, fík jej lze vyjádřit ve tvaru
Py-x
dy
(3) Pomocí korelačních matic jej lze vyjádřit ve tvaru
p2y.x = R(Y,X)(R(X))-1R(X,Y)
(4) Pomocí reziduálního rozptylu lineární predikce jej lze vyjádřit ve tvaru
o2
„2     _ -i UY-x
PY-x = 1
dy
Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013       21 / 44
Poznámka
O Vzorec
2 _ P'DXfi pyx — dy
je vhodný pro výpočet koeficientu mnohonásobné korelace v prípade, že je k dispozici vektor regresních koeficientu
(ft>, či.....h)'-
O Vzorec
p1Y.x = R(Y,X)(R(X))-íR(X,Y)
se využívá v prípade, že jsou k dispozici korelační koeficienty mezi náhodnými veličinami Y,Xi,..., Xj-.
Identity
P2Y-X
1
DY
Vy\x
1
u2 dy
ukazují, že korelační poměr
?/y|X je roven kvadrátu koeficientu mnohonásobné korelace py x v případě, že
teoretická regresní funkce g(X) = E(Y|X) je lineární funkcí proměnných Xi, ...,Xfc. Dále je z tohoto vzorce patrné, že pokud se omezíme na lineární predikce, je interpretace koeficientu mnohonásobné korelace stejná jako je interpretace korelačního poměru v obecném případě.
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
Pokračování
O Podle uváděných vzorců lze koeficient mnohonásobné korelace pyx počítat i v případě, kdy podmíněná střední hodnota E(Y|X) není lineární. V tomto případě potom díky vztahu (dokázaném ve Větě 1)
E(Y - ftj - č'X)2 > E[Y - E(Y|X)]2
"-v-'--v-'
-Í72 -Í72 ~UY-X ~UY\X
snadno vidíme, že
0 < p2y.X < Vy\X < 1
Jan KoláCek (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       23 / 44
Vlastnosti
Věta 10
Pro libovolný nenulový vektor c = (ci,..., c{)' E JR* a Cq E IR platí
PÍx>R2(Y,c0 + c'X),
tj. koeficient mnohonásobné korelace je maximální korelační koeficient mezi náhodnou veličinou Y a libovolnou lineární funkcí Cq + c'X náhodného vektoru X.
Důsledek 11
Pro libovolné j = 1,... ,k platí
rô.x>R2(Y,X;-),
tj. absolutní hodnota libovolného korelačního koeficientu mezi náhodnou veličinou Y a libovolnou z náhodných veličin X\,..., Xj. je nejvýše rovna koeficientu mnohonásobné korelace mezi náhodnou veličinou Y a náhodným vektorem
x=(Xx.....xky.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       24 / 44
Prakticky
Definice 12
Mějme náhodný výběr rozsahu n s vektory Xi = (-1 ) / •••/X„ =        ), kde
pro i = 1,... ,n jsou náhodné vektory Y, typu p x 1 a Z,- typu ijxl, přičemž p + g = k.
Definujme výběrové kovarianční matice
Syz = ^ E (Y<- " Y) (zí " Ž)' = (Sij)     (typu p x í'=i
kde
i = l \y i = l , 7
a výběrovou korelační matici
rzy = fa/)
Jan Koláček (PřF MU) M5VM05 Statistické modelování
SJL
Yl\ {Yn
Prakticky
Definice 13
Mějme náhodné vektory       J >' ' ' > \x' J' ^e ^' Jsou shodné veličiny a X,-   (i = 1, ■ ■ ■ ,n) jsou náhodné vektory typu p x 1.
Jestliže matice Rxx Je regulární, pak výběrový koeficient mnohonásobné korelace je definován vztahem:
ryx = ryxrxxrxy-
Návod 14 (praktický výpočet)
V praxi se většinou výběrový koeficient mnohonásobné korelace počítá pomocí nějakého software. Hledání inverzní matice R-^ může být obecně složitý proces, proto ještě uvedeme alternativní výpočet. Položme Z = (Y, X) a R = Rzz- Pak
,    _ det(R) t*-1 det(Rxx)-
Jan KoláCek (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       26 / 44
Příklad
Příklad 15
Zjišťujeme závislost koncentrace ozónu3 (proměnná Y) ve spodních vrstvách atmosféry na meteorologických podmínkách, které jsou popsány intenzitou slunečního záření (Xi), rychlosti větru (Xi) a teplotě vzduchu (X3). Naměřená data udává následující tabulka.
i ~Y X\ X2 X3
1	23	148	8,00	82
2	21	191	14,90	77
3	37	284	20,70	72
4	20	37	9,20	65
5	12	120	11,50	73
6	13	137	10,30	76
7	135	269	4,10	84
8	49	248	9,20	85
9	32	236	9,20	81
10	64	175	4,60	83
Vypočtěte výběrový koeficient mnohonásobné korelace.
ačást datového souboru airquality implementovaného v jazyce R
Jan Koláček (PřF MU) M5VM05 Statistické modelování
podzim 2013       27 / 44
Řešení
Řešení Ryx = (0,55;-0,51;0,54).
'1,00    0,19 0,60 Rxx = ( 0,19    1,00 -0,52 ,0,60   -0,52 1,00
Její inverze je tvaru
R
xx
3,29    -2,25   —3,13> -2,25    2,91 2,85 -3,13    2,85 4,34
a celkově dostáváme r2.x = RyxRxxRxy = 0,8557.
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
podzim 2013       28 / 44
Řešení
Pokud bychom použili druhý způsob uvedený v Návodu 20, je třeba vypočítat matici R, kterou lze z předešlého vyjádřit R = (   } ), tj.
vyx
xx
R
/ 1,00 0,55 -0,51 V 0,54
0,55 1,00 0,19 0,60
-0,51 0,54 \
0,19 0,60
1,00 -0,52
-0,52 1,00 )
Pak
' yx
= 1
det(R)
= 1
0,032
= 0,8557.
det(Rxx)     - 0,22
Hodnota tohoto koeficientu poukazuje na do jisté míry velkou lineární závislost proměnné y na ostatních proměnných. Tato hodnota je však značně ovlivněna také korelacemi proměnných X\, X^ a X3 mezi sebou. Při pohledu na prvky matice Rxx vidíme, že je např. významná korelace mezi intenzitou slunečního záření (x^) a teplotou vzduchu (x3). Pro vyloučení těchto vlivů je třeba spočítat parciální korelační koeficienty - viz dále.
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
Parciální korelační koeficient
Budeme uvažovat náhodné veličiny
Y,Z,Xx,...,Xk.
Motivací k zavedení tohoto korelačního koeficientu je fakt, že korelační koeficient R(Y,Z) mezi náhodnou veličinou Y a Z může být dosti vysoký proto, že obě náhodné veličiny jsou silně závislé na náhodném vektoru X= (Xi,... , Xj-)'. Zajímá nás proto, jaká by byla korelace mezi Y a Z při vyloučení vlivu, který je způsoben náhodným vektorem X.
Toto odstranění vlivu náhodného vektoru X lze uskutečnit tak, že se sleduje korelace mezi Y a Z při pevných hodnotách náhodného vektoru X. Protože v praktických situacích není možné uspořádání experimentu takovým způsobem, aby byla provedena eliminace vlivu náhodného vektoru X, je třeba ji provést pomocí vhodného matematického modelu. Obdobně jako v případě koeficientu mnohonásobné korelace se omezíme pouze na lineární vztahy.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       30 / 44
Definice
Označme y a z nejlepší lineární predikce náhodných veličin y a z pomocí náhodného vektoru X. Korelaci očištěnou od vlivu náhodného vektoru X dostaneme, budeme-li počítat korelaci R(Y — Y,Z — z).
Definice 16
Nechť existuje korelační koeficient R(Y — Y,Z — z). Potom jej budeme nazývat parciálním korelačním koeficientem náhodných veličin y a z při pevném X a budeme jej značit
pY,z-x=R(Y-Y,Z-Ž).
Jan KoláCek (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       31 / 44
Vlastnosti
Věta 17
Pro parciální korelační koeficient náhodných veličin Y a Z při pevném X platí
Py,zx —
R(Y,Z)-R(Y,X)(R(X)r1R(X,Z)} \(l-p2Y.x) (1 - p\
Z hodnoty korelačního koeficientu R(Y,Z) nelze usuzovat na velikost parciálního korelačního koeficientu py,zx- Tyto dva koeficienty se od sebe mohou dosti odlišovat, mohou mít i různé znaménko a v případě, že jeden z nich je roven nule, může být druhý různý od nuly a podobně. Jejich vztah je tedy odlišný od vztahu R(Y,Xj) a Py-x- který dává Důsledek 17.
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
Prakticky
Definice 18
X,-   (z = 1, ■ ■ ■ ,n) jsou náhodné vektory typu p x 1.
Pak výběrový parciální korelační koeficient je definován vztahem
		(Yn\
		z„\
		
rY,ZX
2 2 2
rYZ rYXrZX
kde fyZ je výběrový koeficient korelace náhodných veličin y, z a ^y.x. rz-X Jsou příslušné výběrové koeficienty mnohonásobné korelace.
Jan KoláCek (PřF MU)
M5VM05 Statistické modelováni
Prakticky
Definice 19
X,-   (z = 1, ■ ■ ■ ,n) jsou náhodné vektory typu p x 1.
Pak výběrový parciální korelační koeficient je definován vztahem
		(Yn\
		z„\
		
rY,ZX
2 2 2
rYZ rYXrZX
kde fyZ je výběrový koeficient korelace náhodných veličin y, z a ^y.x. rz-X Jsou příslušné výběrové koeficienty mnohonásobné korelace.
Jan KoláCek (PřF MU)
M5VM05 Statistické modelováni
Prakticky
Návod 20
V praxi se pro výpočet parciálního korelačního koeficientu používá následujícího postupu. Položme W = (y, z, X) a R = Ryvw- Pak
= det(R(12))
^det(R(11))det(R(22))'
kde       je submatice, která vznikne z R vynecháním i-tého řádku a j-tého sloupce.
Jan KoláCek (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       35 / 44
Příklad
Příklad 21
Na datech z Příkladu 15 vypočtěte parciální korelační koeficient J"y/x1(x2/X3) •
Řešení Připomeňme matici R, která byla tvaru
R
/ 1,00 0,55 -0,51
0,55 1,00 0,19
-0,51 0,19 1,00
\ 0,54 0,60 -0,52
0,54 \ 0,60 -0,52 1,00 /
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
Řešení
Příslušné submatice jsou
R
(li)
R
(12)
R
(22)
Po dosazení dostáváme
rY,Xv(X2,X3)
'1,00    0,19 0,60 0,19    1,00 -0,52 ,0,60   -0,52 1,00
0,55 -0,51 0,54
1,00 -0,51 0,54
0,19 0,60 1,00 -0,52 -0,52 1,00
-0,51 1,00 -0,52
0,2827
a/O, 2220-0,4654
0,54 -0,52 1,00
= 0,8795.
Výsledek lze interpretovat jako velikost lineární závislosti ozónu na intenzitě slunečního záření s vyloučením vlivu rychlosti větru a teploty vzduchu. Podobně by šlo zkoumat ostatní vazby mezi proměnnými.
Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013       37 / 44
Úlohy k procvičení
Příklad 1.1
V tabulce jsou uvedeny výsledky měření (xi,yi) a predikované hodnoty pi, i = 1,..., 10
i 1	2	3	4	5	6	7	8	9	10
Xi 1,60	1,86	2,21	2,29	3,38	3,42	3,62	3,65	3,76	4,27
Vi 3,24	3,12	3,81	5,12	6,28	7,15	7,33	7,81	8,08	8,43
V i 2,98	3,54	4,31	4,48	6,85	6,94	7,37	7,44	7,68	8,79
Určete index determinace a interpretujte ho.
[ID = 0.95532/
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       38 / 44
Úlohy k procvičení
Příklad 1.2
Během 14-ti dní byla měřena polední teplota vzduchu. K predikci teploty byly použity dva modely - model A a model B. Naměřené hodnoty a predikované hodnoty obou modelů jsou uvedeny v následující tabulce.
12345678	9            10            11 12	13	14
yi          0,35        -1,54        0,47        -0,50       -1,99       -2,17       -1,86 -1,37 yf        -0,62       -0,75       -0,87       -0,99       -1,11        -1,24        -1,36 -1,48 yf         -0,17       -0,35       -0,52       -0,70       -0,87       -1,05       -1,22 -1,39	-1,88       -2,30       -2,13 -2,12 -1,60       -1,73       -1,85 -1,97 -1,57       -1,74        -1,92 -2,09	1,76 2,09 2,27	-1,06 -2,22 -2,44
Na základě indexu determinace rozhodněte, který	z modelů je lepší. pDA = 0,31; ID	B =	0,24/
			
Příklad 1.3
Na datech ze Cvičení 1.2 byla predikována hodnota polední teploty vzduchu v 15. den. Model A tuto hodnotu odhadl yf5 = —2,34, predikce pomocí modelu B byla y^5 = —2,61. Ve skutečnosti byla naměřena hodnota yi$ = —1,34. Na nových datech opět porovnejte oba modely pomocí indexu determinace.
[IDA = 0,22; IDB = 0,09/
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       39 / 44
Úlohy k procvičení
Příklad 1.4
Zjišt ujeme závislost spotřeby paliva osobních automobilů3 (proměnná Y, počet mil/galon) na vlastnostech motoru, které jsou popsány objemem válců (X\, kubické palce), výkonem (X2, počet koní), hmotností vozidla (Xj, kilolibry) a zrychlením (X^, počet sekund na 1/4 míle). Naměřená data udává tabulka na další straně.
Vypočtěte závislost spotřeby paliva osobních automobilů na objemu válců, výkonu, hmotnosti a zrychlením vozidla.
[r\.x = 0,934/
ačást datového souboru mtcars implementovaného v jazyce R
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       40 / 44
Model (r.v. 1974)	Y	Xi	X2	x3	x4
Mazda RX4 Wag	21,00	160,00	110,00	2,88	17,02
Datsun 710	22,80	108,00	93,00	2,32	18,61
Hornet 4 Drive	21,40	258,00	110,00	3,21	19,44
Valiant	18,10	225,00	105,00	3,46	20,22
Merc 280C	17,80	167,60	123,00	3,44	18,90
Cadillac Fleetwood	10,40	472,00	205,00	5,25	17,98
AMC Javelin	15,20	304,00	150,00	3,44	17,30
Fiat Xl-9	27,30	79,00	66,00	1,94	18,90
Porsche 914-2	26,00	120,30	91,00	2,14	16,70
Ford Pantera L	15,80	351,00	264,00	3,17	14,50
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       41 / 44
Úlohy k procvičení
Příklad 1.5
V rámci biometrického výzkumu byl na jednotlivých stromech zjišiován vztah mezi veličinami objem (Y, m3), výčetní tloušika (X\, cm), výška (X2, m) a délka zelené koruny (X3, m). Naměřené hodnoty jsou uvedeny v tabulce na další straně. Vyšetřete korelační závislost objemu na tlouštce, výšce a délce zelené koruny.
[r\,x = 0,9634/
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       42 / 44
Strom	Y	Xi	X2	x3
1	0,013	8	9,8	3,6
2	0,021	8	10,2	3,6
3	0,012	7	9,4	3,0
4	0,009	7	7,8	1,4
5	0,065	12	11,2	4,6
6	0,071	12	12,0	5,1
7	0,102	13	13,5	6,9
8	0,048	10	12,1	4,6
9	0,049	11	10,8	4,3
10	0,011	7	8,9	3,9
11	0,017	8	9,3	3,5
12	0,059	11	12,0	4,8
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
podzim 2013       43 / 44
Úlohy k procvičení
Příklad 1.6
Na datech ze Cvičení 1.4 vypočtěte parciální korelační koeficienty i'Y,xr{x2,x3„xi)' ^XriX^Xi)- ^Xg-ÍX^XzÄ). rXuXi-iXuXifc)-
Vy^íx^x,) = 0,2319; rY/Xr(Xi/X3/Xi) = -0,5219; rY/X3<Xi/X2/Xi) = -0,7405; 'xMx^iXi) = -0,0736.]
Příklad 1.7
Na datech ze Cvičení 1.5 vypočtěte všechny parciální korelační koeficienty.
Vy,xv{x2,x3) = 0,8558; rY/X2.(Xl/X3) = 0,1938; rY/X3.(Xl/X2) = 0,2974; rXi,X2-(Y,x3) = 0,1248; rXl/X3.(Y/X2) = -0,22; rX2/X3.(Y/Xl) = 0,6161.]
Jan KoláCek (PřF MU)
M5VM05 Statistické modeloval
podzim 2013       44 / 44