Osnova přednášky Korelační analýza
1. Jednoduchá korelace
1.1. Pearsonův koeficient korelace a jeho vlastnosti
1.2. Výběrový koeficient korelace
1.3. Test hypotézy o nezávislosti
1.4. Příklad
1.5. Interval spolehlivosti pro koeficient korelace
1.6. Příklad
1.7. Porovnání koeficientu korelace s danou konstantou
1.8. Porovnání dvou koeficientů korelace
2. Mnohonásobná korelace
2.1. Varianční, korelační a kovarianční matice
2.2. Odhady pro jeden náhodný vektor
2.3. Příklad
2.4. Odhady pro dva náhodné vektory
2.5. Příklad
2.6. Koeficient mnohonásobné korelace a jeho vlastnosti
2.7. Výběrový koeficient mnohonásobné korelace
2.8. Test hypotézy o nevýznamnosti koeficientu mnohonásobné korelace
2.9. Příklad
3. Parciální korelace
3.1. Koeficient parciální korelace
3.2. Výběrový koeficient parciální korelace
3.3. Test hypotézy o nevýznamnosti koeficientu parciální korelace
3.4. Příklad
1. Jednoduchá korelace
1.1. Pearsonův koeficient korelace
Definice: Nechť X, Y jsou náhodné veličiny se středními hodnotami E(X), E(Y) a rozptyly D(X), D(Y).
Číslo
( )
( )
jinak0
0)Y(D)X(Dpro
)Y(D)X(D
YX,C
)Y(D
)Y(EY
)X(D
)X(EX
E
Y,XR





>=







 −
⋅
−
=
se nazývá Pearsonův koeficient korelace.
Vlastnosti Pearsonova koeficientu korelace
a) R(a1, Y) = R(X, a2) = R(a1, a2) = 0
b) R(a1 + b1X, a2 + b2Y) = sgn(b1b2) R(X, Y) =
( )
( )


<−
>
0bbproY,XR
0bbproY,XR
21
21
c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak
d) R(X, Y) = R(Y, X)
e) 1)Y,X(R ≤ a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineární
závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a
R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.)
Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y.
Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový.
Definice nekorelovanosti
Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární
závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.)
Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X
rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.)
Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X
klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.)
Pearsonův koeficient korelace dvourozměrného normálního rozložení
Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou
( ) ( ) 













σ
µ−
+
σ
µ−
⋅
σ
µ−
ρ−





σ
µ−
ρ−
−
ρ−σπσ
=ϕ
2
2
2
2
2
1
1
2
1
1
2
yyx
2
x
12
1
2
21
e
12
1
y,x ,
přičemž µ1 = E(X), µ2 = E(Y), σ1
2
= D(X), σ2
2
= D(Y), ρ = R(X,Y).
Marginální hustoty jsou:
( ) ( )
( )
2
1
2
1
2
x
1
1 e
2
1
...dyy,xx σ
µ−
−∞
∞− πσ
==ϕ=ϕ ∫ ,
( ) ( )
( )
2
2
2
2
2
y
2
2 e
2
1
...dxy,xy σ
µ−
−∞
∞− πσ
==ϕ=ϕ ∫ .
Je-li ρ = 0, pak pro ( ) ( ) ( ) ( )yxy,x:Ry,x 21
2
ϕϕ=ϕ∈∀ , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy:
stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro
jiná dvourozměrná rozložení to neplatí!
1.2. Výběrový koeficient korelace
Nechť (X1, Y1), ..., (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční
funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit:
výběrové průměry ∑
=
=
n
1i
i1 X
n
1
M , ∑
=
=
n
1i
i2 Y
n
1
M ,
výběrové rozptyly ( )∑
=
−
−
=
n
1i
2
1i
2
1 MX
1n
1
S , ( )∑
=
−
−
=
n
1i
2
2i
2
2 MY
1n
1
S ,
výběrovou kovarianci ( )( )∑
=
−−
−
=
n
1i
2i1i12 MYMX
1n
1
S a s jejich pomocí zavedeme
výběrový koeficient korelace 




>=
−
⋅
−
−=
∑=
jinak0
0SSpro
SS
S
S
MY
S
MX
1n
1
R
21
21
12
n
1i 2
2
1
1
12
.
Vlastnosti Pearsonova koeficientu korelace se přenášejí i na výběrový koeficient korelace. (Výběrový
koeficient korelace není nestranným odhadem skutečného koeficientu korelace, je odhadem
vychýleným. Vychýlení je zanedbatelně malé pro rozsahy výběrů nad 30.)
Upozornění: nadále budeme předpokládat, že (X1, Y1), ..., (Xn, Yn) je náhodný výběr rozsahu n
z dvourozměrného normálního rozložení N2 















σσρσ
σρσσ






µ
µ
2
221
21
2
1
2
1
, .
Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového
diagramu: tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice
hustoty dvourozměrného normálního rozložení jsou totiž elipsy.
Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní
hustoty pravděpodobnosti. Bude-li více než 100α% teček ležet vně této elipsy, svědčí to o
porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou
směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé
lineární závislosti.
1.3. Testování hypotézy o nezávislosti
Na hladině významnosti α testujeme H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti
- oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0)
- levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0)
- pravostranné alternativě H1: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0).
Testová statistika má tvar: 2
12
12
0
R1
2nR
T
−
−
= .
Platí-li nulová hypotéza, pak T0 ~ t(n-2).
Kritický obor pro test H0 proti
- oboustranné alternativě: ( )( ( ) )∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1
,
- levostranné alternativě: ( )( 2nt,W 1 −−∞−= α−
,
- pravostranné alternativě: ( ) )∞−= α− ,2ntW 1
.
H0 zamítáme na hladině významnosti α, když Wt0 ∈ .
1.4. Příklad
V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených
výrobků (náhodná veličina Y):
X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15
Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81.
Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte
hypotézu o nezávislosti X a Y.
Řešení: Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu.
10 15 20 25 30
x
50
60
70
80
90
100
110
120
y
Vidíme, že předpoklad dvourozměrné normality je oprávněný.
Vypočteme realizace
výběrových průměrů: m1 = ∑=
n
1i
ix
n
1
= 18,267, m2 = ∑=
n
1i
iy
n
1
= 83,6,
výběrových rozptylů: s1
2
= ( )∑=
−
−
n
1i
2
1i mx
1n
1
= 5,6381, s2
2
= ( )∑=
−
−
n
1i
2
2i my
1n
1
= 121,4,
výběrové kovariance: s12 = ( )( )∑=
−−
−
n
1i
2i1i mymx
1n
1
= 24,2571,
výběrového koeficientu korelace:
21
12
12
ss
s
r = = 0,927.
Realizace testové statistiky: 2
12
12
0
r1
2nr
t
−
−
= = 8,912,
kritický obor ( )( ( ) ) ( )∞∪−∞−=∞∪−∞−= ,012,3012,3,,13t13t,W 995,0995,0 .
Protože Wt0 ∈ , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1%
jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost.
Výpočet pomocí systému STATISTICA
Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného
tečkového diagramu – viz výše.
Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 2 seznamy (obd. matice) – X, Y – OK – na záložce Možnosti
vybereme Zobrazit detailní tabulku výsledků – Výpočet.
Korelace (smeny a vyrobky.sta)
Označ. korelace jsou významné na hlad. p < ,05000
(Celé případy vynechány u ChD)
Prom. X &
prom. Y
Průměr Sm.Odch. r(X,Y) r2 t p N Konst.
záv.: Y
Směr.
záv: Y
Konst.
záv.: X
Směrnic
záv.: X
X
Y
18,26667 2,37447
83,60000 11,01817 0,927180 0,859663 8,923795 0,000001 15 5,010135 4,302365 1,562407 0,199812
Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající phodnota
je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y.
1.5. Interval spolehlivosti pro koeficient korelace
Náhodná veličina
12
12
R1
R1
ln
2
1
Z
−
+
= (tzv. Fisherova Z-transformace koeficientu korelace) má přibližně normální
rozložení se střední hodnotou ( )
( )1n21
1
ln
2
1
ZE
−
ρ
+
ρ−
ρ+
= (2. sčítanec lze při větším n zanedbat) a
rozptylem ( )
3n
1
ZD
−
= .
Standardizací veličiny Z dostaneme veličinu
)Z(D
)Z(EZ
U
−
= , která má asymptoticky rozložení N(0,1).
Tudíž 100(1-α)% asymptotický interval spolehlivosti pro
ρ−
ρ+
1
1
ln
2
1
bude mít meze
3n
u
Z 2/1
−
± α−
.
Interval spolehlivosti pro ρ pak dostaneme zpětnou transformací.
Poznámka: Jelikož Z = arctgh R12, dostáváme R12 = tgh Z a meze intervalu spolehlivosti pro ρ můžeme psát
ve tvaru 





−
± α−
3n
u
Ztgh 2/1
, přičemž xx
xx
ee
ee
xtgh −
−
+
−
= .
1.6. Příklad: Učitel tělocviku zjišťoval, zda existuje vztah mezi počtem shybů (veličina X) a počtem kliků (veličina Y) u 15
náhodně vybraných chlapců:
Číslo chlapce1 2 3 45 6 78 9 101112131415
Počet shybů 1 3 2 05 6 14 3 5 6 2 1 1 8
Počet kliků 1015150402573130354110149 64
Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 15 z dvourozměrného normálního rozložení,
vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé
náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ.
Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu.
-6 -4 -2 0 2 4 6 8 10 12
X
-20
0
20
40
60
Y
Vzhled diagramu svědčí o tom, že předpoklad je oprávněný.
Testujeme H0: ρ = 0 proti H1: ρ ≠ 0. Vypočítáme R12 = 0,9276, tedy mezi počtem shybů a počtem kliků existuje silná přímá
lineární závislost. Testová statistika: T = 8,9511, kvantil t0,975(13) = 2,1604, kritický obor ( )∞∪−∞−= ,1604,21604,2,W . Jelikož
WT ∈ , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y.
Vypočítáme 6409,1
9276,01
9276,01
ln
2
1
R1
R1
ln
2
1
Z
12
12
=
−
+
=
−
+
= . Meze 95% asymptotického intervalu spolehlivosti pro ρ jsou






±
12
96,1
6409,1tgh , tedy 0,7914 < ρ < 0,9761 s pravděpodobností přibližně 0,95.
Výpočet pomocí systému STATISTICA:
Statistiky – Analýza síly testu – Odhad intervalu - Jedna korelace, t-test – OK – Pozorované R: 0,9276, N: 21, Spolehlivost:
0,95 – Výpočetní algoritmus: zaškrtneme Fisherovo Z (původní) – Vypočítat.
Odhad intervalu
Jedna korelace,
t-test
Hodnota
Pozorovaný korel. koef. R
Korelace dle nulové hypotézy (Ró0)
Oboustranná p-hodnota
Velikost vz. ve skup. (N)
Interval spolehlivosti
Meze spolehlivosti (Fisher. Z původní):
Ró:
Dolní mez
Horní mez
0,9276
0,0000
0,0000
15,0000
0,9500
0,7914
0,9761
95% asymptotický interval spolehlivosti pro koeficient korelace ρ má tedy meze 0,7914 a 0,9761. (Protože nepokrývá hodnotu
0, zamítáme hypotézu o nezávislosti veličin X, Y na asymptotické hladině významnosti 0,05.)
1.7. Porovnání koeficientu korelace s danou konstantou
Nechť c je reálná konstanta. Testujeme H0: ρ = c proti H1: ρ ≠ c. (Tento test se provádí např. tehdy, když experimentátor
porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.) Test je založen na statis-
tice
( )
3n
1n2
c
c1
c1
ln
2
1
ZU −





−
−
−
+
−= , která má za platnosti H0 pro n ≥ 10 asymptoticky rozložení
N(0,1), přičemž
12
12
R1
R1
ln
2
1
Z
−
+
= je tzv. Fisherova Z-transformace. Kritický obor pro test H0 proti oboustranné
alternativě tedy je ( )∞∪−∞−= α−α− ,uu,W 2/12/1
. H0 zamítáme na asymptotické hladině významnosti
α, když WU ∈ .
Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým
koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na
asymptotické hladině významnosti 0,05 testujte hypotézu
H0: ρ = 0,9 proti H1: ρ ≠ 0,9.
Řešení: 2562,1
85,01
85,01
ln
2
1
Z =
−
+
= ,
( )
2976,53600
16002
9,0
9,01
9,01
ln
2
1
2562,1U −=−





−
−
−
+
−= ,
u0,975 = 1,96, ( )∞∪−∞−= ,96,196,1,W . Protože WU∈ , H0 zamítáme na asymptotické hladině
významnosti 0,05.
Výpočet pomocí systému STATISTICA (pouze přibližný):
Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními
koeficienty. Do políčka r1 napíšeme 0,85, do políčka N1 napíšeme 600, do políčka r2 napíšeme 0,9, do políčka N2 napíšeme
32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na
asymptotické hladině významnosti 0,05.
Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím statistiky U, můžeme
vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru – Korelace, kde zadáme realizaci výběrového
koeficientu korelace, rozsah výběru. Zajímá nás Fisher z.
1.8. Porovnání dvou koeficientů korelace
Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n*
z dvourozměrných normálních rozložení
s korelačními koeficienty ρ a ρ*
. Testujeme H0: ρ = ρ*
proti H1: ρ ≠ ρ*
.
Označme R12 výběrový korelační koeficient 1. výběru a R12
*
výběrový korelační koeficient 2. výběru.
Položme
12
12
R1
R1
ln
2
1
Z
−
+
= a *
12
*
12*
R1
R1
ln
2
1
Z
−
+
= .
Platí-li H0, pak testová statistika
3n
1
3n
1
*
*
ZZ
U
−−
+
−
=
má asymptoticky rozložení N(0,1).
Kritický obor pro test H0 proti oboustranné alternativě tedy je ( )∞∪−∞−= α−α− ,uu,W 2/12/1 .
H0 zamítáme na asymptotické hladině významnosti α, když WU ∈ .
Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů
trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový korelační
koeficient mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl
0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty
v obou skupinách se neliší.
Řešení: 3884,0
37,01
37,01
ln
2
1
Z,7753,0
65,01
65,01
ln
2
1
Z *
=
−
+
==
−
+
= ,
9242,2
3884,07753,0
U
3142
1
3100
1
=
+
−
=
−−
, u0,975 = 1,96, ( )∞∪−∞−= ,96,196,1,W .
Protože WU∈ , H0 zamítáme na asymptotické hladině významnosti 0,05.
Výpočet pomocí systému STATISTICA:
Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl
mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,65, do políčka N1 napíšeme 100,
do políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu
0,0038, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05.
2. Mnohonásobná korelace
2.1. Varianční, korelační a kovarianční matice
Nechť X = (X1, …, Xp)’ je náhodný vektor. Označme
µi = E(Xi) střední hodnotu náhodné veličiny Xi,
σi
2
= D(Xi) rozptyl náhodné veličiny Xi,
σij = C(Xi, Xj) kovarianci náhodných veličin Xi, Xj (přitom σii = σi
2
)
ρij = R(Xi, Xj) koeficient korelace náhodných veličin Xi, Xj
Vektor E(X) = (µ1, …, µp)’ se nazývá vektor středních hodnot náhodného vektoru X.
Čtvercová matice řádu p var(X) = (σij)i,j=1, …, p se nazývá varianční matice náhodného vektoru X.
Čtvercová matice řádu p cor(X) = (ρij) i,j=1, …, p se nazývá korelační matice náhodného vektoru X.
Je zřejmé, že varianční matice a korelační matice jsou symetrické.
Nechť X = (X1, …, Xp)’ a Y = (Y1, …, Yq)’ jsou náhodné vektory.
Matice typu pxq cov(X,Y) = (C(Xi, Yj)) se nazývá kovarianční matice vektorů X, Y.
Matice typu pxq cor(X,Y) = (ρ(Xi, Yj)) se nazývá korelační matice vektorů X,Y.
2.2. Odhady pro jeden náhodný vektor
Nechť X je náhodný vektor, který má p-rozměrné rozložení s vektorem středních hodnot µ, varianční maticí
var(X) a korelační maticí cor(X). Nechť je dán náhodný výběr X1 = (X11, …, X1p)’, …, Xn = (Xn1, …, Xnp)’
rozsahu n z tohoto rozložení.
Nestranný odhad vektoru µ je vektor výběrových průměrů M = (M1, …, Mp)’, kde ∑
=
=
n
1i
ijj X
n
1
M je výběrový
průměr j-tého výběru, j = 1, …, p.
Nestranný odhad matice var(X) je výběrová varianční matice S = (Sij) = ( )( )∑
=
−−
−
n
1i
ii '
1n
1
MXMX řádu p.
Vychýlený odhad matice cor(X) je výběrová korelační matice R = (Rij), kde Rij je výběrový korelační koeficient
i-té a j-té složky vektoru X, tedy
jjii
ij
ij
SS
S
R = , i, j = 1, …, p. (Je zřejmé, že diagonální prvky matice R jsou jedničky a matice R je symet-
rická.)
2.3. Příklad: U 28 náhodně vybraných osob byly zjišťovány tyto údaje:
Sex … 1 – muž, 2 – žena (mužů i žen bylo po 14)
výška (v cm), hmotnost (v kg), boty (číslo bot).
Vypočtěte realizaci výběrové varianční matice a výběrové korelační matice. (Soubor udaje_o_lidech_1.sta)
Řešení:
Statistiky – Vícenásobná regrese - Proměnné Závislá boty, nezávislé výška, hmotnost– OK – OK –
Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance resp. Korelace.
Výběrová varianční matice
Proměnná vyska hmotnost boty
vyska
hmotnost
boty
112,8611 161,0926 41,45370
161,0926 248,4709 61,99206
41,4537 61,9921 16,40608
Výběrová korelační matice
Proměnná vyska hmotnost boty
vyska
hmotnost
boty
1,000000 0,961979 0,963360
0,961979 1,000000 0,970948
0,963360 0,970948 1,000000
Z výběrové varianční matice plyne, že největší variabilitu má hmotnost, pak výška a nakonec číslo bot.
Z výběrové korelační matice plyne, že mezi všemi třemi dvojicemi proměnných existuje velmi silná přímá lineární závislost,
nejsilnější je mezi hmotností a velikostí bot.
Upozornění: Pro výpočet těchto matic lze použít i modul Pokročilé lineární/nelineární modely – viz 2.5.
2.4. Odhady pro dva náhodné vektory
Nechť náhodný vektor X má p-rozměrné rozložení a nechť X1, …, Xn je náhodný výběr z tohoto
rozložení. Nechť náhodný vektor Y má q-rozměrné rozložení a nechť Y1, …, Yn je náhodný výběr
z tohoto rozložení. Předpokládejme, že obě rozložení mají konečné druhé momenty. Nechť
cov(X, Y) je kovarianční matice těchto vektorů a cor(X, Y) je korelační matice těchto vektorů.
Označme q,...,1j,Y
n
1
M,p,...,1j,X
n
1
M
n
1i
ijYj
n
1i
ijXj ==== ∑∑
==
,
MX = (MX1, …, MXp)’, MY = (MY1, …, MYq)’.
Nestranným odhadem kovarianční matice cov(X, Y) vektorů X, Y je výběrová kovarianční matice
vektorů X, Y definovaná vzorcem SXY = (Sij) = ( )( )∑
=
−−
−
n
1i
ii '
1n
1
YX MYMX , i = 1, …, p,
j = 1, …, q.
Vychýleným odhadem korelační matice cor(X, Y) vektorů X, Y je výběrová korelační matice
vektorů X, Y definovaná vzorcem RXY = (Rij), kde Rij je výběrový korelační koeficient i-té a j-té
složky vektorů X, Y, i = 1, …, p, j = 1, …, q.
2.5.Příklad: Nechť vektor X = (X1, X2, X3)’ obsahuje údaje o výšce, hmotnosti a číslu bot mužů,
vektor Y =(Y1, Y2)’ obsahuje údaje výšce a hmotnosti žen. Vypočtěte realizace výběrové
kovarianční a výběrové korelační matice vektorů X, Y. (Soubor udaje_o_lidech_2.sta)
Řešení:
Statistiky – Pokročilé lineární/nelineární modely – Obecné lineární modely – OK – Závislé
proměnné: Vyska_z, Hmotnost_z – Spojité nezávislé proměnné: Vyska_m, Hmotnost_m,
Boty_m – OK – na záložce Možnosti zaškrtneme Bez abs. členu – OK – na záložce Matice
vybereme Kovariance resp. Korelace. Ve vzniklých tabulkách ponecháme pouze poslední dvě
proměnné a první tři případy.
Výběrová kovarianční matice
Efekt
Sloup.4
Vyska_z
Sloup.5
Hmotnost_z
Vyska_m
Hmotnost_m
Boty_m
10,81319 17,39560
15,70879 15,22527
4,43407 5,13736
Výběrová korelační matice
Efekt
Sloup.4
Vyska_z
Sloup.5
Hmotnost_z
Vyska_m
Hmotnost_m
Boty_m
0,467318 0,767160
0,514047 0,508409
0,560289 0,662427
Upozornění: Pro výpočet těchto matic lze použít i modul Vícenásobná regrese – viz 2.3.
2.6. Koeficient mnohonásobné korelace
Intenzitu lineární závislosti mezi náhodnou veličinou Y a náhodným vektorem X = (X1, …, Xp)’
měříme pomocí koeficientu mnohonásobné korelace ρY. X. Jeho druhá mocnina je dána vzorcem
ρY. X
2
= cor(Y, X) cor(X)-1
cor(X, Y).
Má tyto vlastnosti:
a) ρY. X ≥ 0
b) ρY. X ≥ ( ) p1,...,iproX,Y i =∀ρ
c) ( )1XX.YX...X.Y X,Y... 21p1
ρ≥ρ≥≥ρ
d) ρY. X = 1⇔ existují konstanty β0, β1, …, βp tak, že Y = β0 + β1X1 +… + βp Xp.
2.7. Výběrový koeficient mnohonásobné korelace
Nechť náhodný vektor (Y, X1, …, Xp)’ má (p+1)-rozměrné rozložení s koeficientem
mnohonásobné korelace ρY. X.
Nechť je dán náhodný výběr (Y1, X11, …, X1p)’, …, (Yn, Xn1, …, Xnp)’ rozsahu n z tohoto
rozložení. Pak jako odhad ρY. X slouží výběrový koeficient mnohonásobné korelace rY. X, jehož
druhá mocnina je dána vzorcem
rY. X
2
= RYX R-1
RXY,
kde RYX je výběrová korelační matice veličiny Y a vektoru X (v tomto případě se redukuje na
vektor ( )p1 YXYX r,...,r ) a R je výběrová korelační matice vektoru X.
Vlastnosti koeficientu mnohonásobné korelace se přenášejí i na výběrový koeficient
mnohonásobné korelace.
Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina X1 – v letech)
a době zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje:
Y 67 65 75 66 77 84 69 60 70 66
X1 43 40 49 46 41 41 48 34 32 42
X2 6 8 14 14 8 12 16 1 5 7
Vypočtěte výběrový koeficient mnohonásobné korelace ( )21 X,X,Yr popisující závislost hodinové výkonnosti dělníka na na jeho
věku a době zapracovanosti.
Řešení:
Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2 – OK – OK.
Koeficient ( )21 X,X,Yr najdeme v záhlaví výstupní tabulky pod označením R = 0,54
Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta)
R= ,54005243 R2= ,29165662 Upravené R2= ,08927280
F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491
N=10
b* Sm.chyba
z b*
b Sm.chyba
z b
t(7) p-hodn.
Abs.člen
X1
X2
86,74217 25,32397 3,425299 0,011056
-0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883
0,920415 0,598452 1,35062 0,87817 1,537994 0,167937
Jeho druhá mocnina (ozn. R2) nám říká, že variabilita výkonů dělníků je z 29% vysvětlena jejich věkem a dobou zapracova-
nosti.
2.8. Test hypotézy o nevýznamnosti koeficientu mnohonásobné korelace
Nechť náhodný výběr (Y1, X11, …, X1p)’, …, (Yn, Xn1, …, Xnp)’ pochází z (p+1)-rozměrného
normálního rozložení, které má koeficient mnohonásobné korelace ρY. X. Musí platit n > p+1.
Testujeme hypotézu H0: ρY. X = 0 proti H1: ρY. X ≠ 0. Vzhledem k tomu, že se jedná o výběr
z (p+1)-rozměrného normálního rozložení, testujeme, zda existuje závislost mezi veličinou Y a
vektorem X. (Je-li ρY. X = 0, pak z vlastnosti (b) plyne, že ρ(Y,Xi) = 0 pro všechna i = 1, …, p,
tudíž náhodné veličiny Y a Xi jsou stochasticky nezávislé pro všechna i = 1, …, p.)
Testová statistika 2
.Y
2
.Y
r1
r
p
1pn
F
X
X
−
⋅
−−
= se řídí rozložením F(p, n-p-1), pokud H0 platí. Kritický
obor: ( ) )∞−−= α− ,1pn,pFW 1
. Jestliže WF∈ , H0 zamítáme na hladině významnosti α.
2.9. Příklad
Předpokládáme, že údaje o výkonnosti 10 náhodně vybraných dělníků, jejich věku a době zapracovanosti představují
číselné realizace náhodného výběru rozsahu 10 ze třírozměrného normálního rozložení. Na hladině významnosti 0,05
testujte hypotézu, že výkon dělníka nezávisí na jeho věku a době zapracovanosti.
Řešení:
Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2 – OK – OK.
Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta)
R= ,54005243 R2= ,29165662 Upravené R2= ,08927280
F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491
N=10
b* Sm.chyba
z b*
b Sm.chyba
z b
t(7) p-hodn.
Abs.člen
X1
X2
86,74217 25,32397 3,425299 0,011056
-0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883
0,920415 0,598452 1,35062 0,87817 1,537994 0,167937
Hodnota testové statistiky pro test nevýznamnosti koeficientu mnohonásobné korelace ( )21 X,X,Yρ je 1,4411, počet stupňů
volnosti čitatele je 2, jmenovatele 7, odpovídající p-hodnota je 0,2991, tedy na hladině významnosti 0,05 nezamítáme
hypotézu, že výkon dělníka není závislý na jeho věku a době zapracovanosti.
3. Parciální korelace
3.1. Koeficient parciální korelace
Nechť Y, Z jsou náhodné veličiny a X = (X1, …, Xp)’ je náhodný vektor. Koeficient korelace
ρ(Y,Z) udává míru těsnosti lineárního vztahu mezi veličinami Y a Z. Ta však může být ovlivněna
i tím, že mezi veličinami X1, …, Xp existují veličiny, které silně korelují jak s Y, tak se Z. Zajímá
nás proto, jaká je „čistá“ korelace mezi Y a Z, když se eliminuje vliv náhodného vektoru X.
Pokud se omezíme na lineární vztahy, můžeme vliv vektoru X na veličinu Y popsat lineární regresní
funkcí
Y
)
= α + β’X, kde β = var(X)-1
cov(X,Y), α = E(Y) - β’E(X).
Tu část veličiny Y, kterou vektor X nevysvětlí, si můžeme představit jako reziduum Y - Y
)
. Analogicky
pro veličinu Z dostáváme
Z
)
= γ + δ’X, kde δ = var(X)-1
cov(X,Z), γ = E(Z) - δ’E(X),
tudíž reziduum Z - Z
)
chápeme jako tu část veličiny Z, kterou vektor X nevysvětlí.
Koeficient korelace mezi rezidui Y - Y
)
a Z - Z
)
se nazývá parciální korelační koeficient mezi
náhodnými veličinami Y a Z při pevně daném vektoru X a značí se X.Z,Yρ .
Tedy X.Z,Yρ = ρ(Y - Y
)
, Z - Z
)
). Počítá se podle vzorce
( ) ( ) ( ) ( )
( ) ( ) ( )[ ] ( ) ( ) ( )[ ]Z,covcor,Zcov1Y,covcor,Ycov1
Z,covcor,YcovZ,Y
11
1
.Z,Y
XXXXXX
XXX
X −−
−
−−
−ρ
=ρ .
3.2. Výběrový koeficient parciální korelace
Nechť náhodný vektor (Y, Z, X1, …, Xp)’ pochází z (p+2)-rozměrného rozložení, které má
parciální korelační koeficient X.Z,Y
ρ .
Nechť je dán náhodný výběr (Y1, Z1, X11, …, X1p)’, …, (Yn, Zn, Xn1, …, Xnp)’ rozsahu n z tohoto
rozložení. Musí platit n > p+2. Jako odhad X.Z,Yρ slouží výběrový parciální korelační koeficient
X.Z,Y
r :
[ ][ ]Z
1
ZY
1
Y
Z
1
YYZ
.Z,Y
11
r
r
XXXXXXXX
XXXX
X
SRSSRS
SRS
−−
−
−−
−
=
3.3. Test hypotézy o nevýznamnosti koeficientu parciální korelace
Budeme předpokládat, že uvedený náhodný výběr pochází z (p+2)-rozměrného normálního roz-
ložení.
Testujeme hypotézu H0: ρY, Z . X = 0 proti H1: ρY, Z . X ≠ 0.
Vzhledem k tomu, že se jedná o výběr z normálního rozložení, testujeme, zda existuje závislost
mezi Y a Z při eliminaci vlivu X.
Testová statistika 2
.Z,Y
.Z,Y
0
r1
2pnr
T
X
X
−
−−
= se řídí rozložením t(n-p-2), pokud H0 platí.
Kritický obor: ( )( ( ) )∞−−∪−−∞−= α−α− ,2pnt2pnt,W 2/12/1
.
Jestliže WT0 ∈ , H0 zamítáme na hladině významnosti α.
3.4. Příklad
Pro data z příkladu o výkonnosti dělníků vypočtěte výběrové parciální korelační koeficienty 1221 X.X,YX.X,Y r,r , interpretujte je,
porovnejte je s obyčejnými výběrovými korelačními koeficienty 21 YXYX r,r a pro α = 0,05 otestujte významnost uvedených
parciálních korelačních koeficientů.
Výpočet pomocí systému STATISTICA
Nejprve vypočteme koeficient korelace mezi výkonem a věkem.
Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 2 seznamy – 1. seznam Y, 2. seznam X1, X2 – Výpočet.
Proměnná X1
Y 0,2287
Dále vypočteme parciální korelační koeficient mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti a otestujeme
jeho významnost.
Statistiky – Základní statistiky/tabulky – Korelační matice – OK – na záložce Možnosti zaškrtneme Zobrazit r, úrovně p,
počty N, na záložce Detaily zvolíme Parciální korelace – 1. seznam proměnných Y, X1, druhý seznam proměnných X2 –
OK
Proměnná Y X1
Y
X1
1,0000 -,3286
p= --- p=,388
-,3286 1,0000
p=,388 p= ---
Korelační koeficient mezi výkonem a věkem vyšel 0,2287, tedy s rostoucím věkem roste výkon. Parciální korelační koeficient
mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti vyšel -0,3286, tedy u dělníků se stejnou dobou zapracovanosti
klesá s rostoucím věkem výkon.
Odpovídající p-hodnota je 0,388, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti 21 X.X,Yρ .
Nyní vypočteme koeficient korelace mezi výkonem a dobou zapracovanosti:
Proměnná X2
Y 0,4538
Dále vypočteme parciální korelační koeficient mezi výkonem a dobou zapracovanosti při vyloučení
vlivu věku pracovníka a otestujeme jeho významnost.
Proměnná Y X2
Y
X2
1,0000 ,5026
p= --- p=,168
,5026 1,0000
p=,168 p= ---
Korelační koeficient mezi výkonem a dobou zapracovanosti vyšel 0,4538, tedy čím delší doba
zapracovanosti, tím lepší výkon dělník podává. Parciální korelační koeficient mezi výkonem a
dobou zapracovanosti při vyloučení vlivu věku vyšel 0,5026, tedy u stejně starých dělníků je poněkud
silnější přímá lineární vazba mezi výkonem a dobou zapracovanosti.
Odpovídající p-hodnota je 0,168, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti
12 X.X,Yρ .