Osnova přednášky Korelační analýza 1. Jednoduchá korelace 1.1. Pearsonův koeficient korelace a jeho vlastnosti 1.2. Výběrový koeficient korelace 1.3. Test hypotézy o nezávislosti 1.4. Příklad 1.5. Interval spolehlivosti pro koeficient korelace 1.6. Příklad 2. Vícenásobná korelace 2.1. Varianční, korelační a kovarianční matice 2.2. Odhady pro jeden náhodný vektor 2.3. Příklad 2.4. Odhady pro dva náhodné vektory 2.5. Příklad 2.6. Koeficient vícenásobné korelace a jeho vlastnosti 2.7. Výběrový koeficient vícenásobné korelace 2.8. Test hypotézy o nevýznamnosti koeficientu vícenásobné korelace 2.9. Příklad 3. Parciální korelace 3.1. Koeficient parciální korelace 3.2. Výběrový koeficient parciální korelace 3.3. Test hypotézy o nevýznamnosti koeficientu parciální korelace 3.4. Příklad 1. Jednoduchá korelace 1.1. Pearsonův koeficient korelace Definice: Nechť X, Y jsou náhodné veličiny se středními hodnotami E(X), E(Y) a rozptyly D(X), D(Y). Číslo ( ) ( ) jinak0 0)Y(D)X(Dpro )Y(D)X(D YX,C )Y(D )Y(EY )X(D )X(EX E Y,XR      >=         − ⋅ − = se nazývá Pearsonův koeficient korelace. Vlastnosti Pearsonova koeficientu korelace a) R(a1, Y) = R(X, a2) = R(a1, a2) = 0 b) R(a1 + b1X, a2 + b2Y) = sgn(b1b2) R(X, Y) = ( ) ( )   <− > 0bbproY,XR 0bbproY,XR 21 21 c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak d) R(X, Y) = R(Y, X) e) 1)Y,X(R ≤ a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.) Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Definice nekorelovanosti Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) Pearsonův koeficient korelace dvourozměrného normálního rozložení Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou ( ) ( )               σ µ− + σ µ− ⋅ σ µ− ρ−      σ µ− ρ− − ρ−σπσ =ϕ 2 2 2 2 2 1 1 2 1 1 2 yyx 2 x 12 1 2 21 e 12 1 y,x , přičemž μ1 = E(X), μ2 = E(Y), σ1 2 = D(X), σ2 2 = D(Y), ρ = R(X,Y). Marginální hustoty jsou: ( ) ( ) ( ) 2 1 2 1 2 x 1 1 e 2 1 ...dyy,xx σ µ− −∞ ∞− πσ ==ϕ=ϕ  , ( ) ( ) ( ) 2 2 2 2 2 y 2 2 e 2 1 ...dxy,xy σ µ− −∞ ∞− πσ ==ϕ=ϕ  . Je-li ρ = 0, pak pro ( ) ( ) ( ) ( )yxy,x:Ry,x 21 2 ϕϕ=ϕ∈∀ , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí! 1.2. Výběrový koeficient korelace Nechť (X1, Y1), ..., (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry  = = n 1i i1 X n 1 M ,  = = n 1i i2 Y n 1 M , výběrové rozptyly ( ) = − − = n 1i 2 1i 2 1 MX 1n 1 S , ( ) = − − = n 1i 2 2i 2 2 MY 1n 1 S , výběrovou kovarianci ( )( ) = −− − = n 1i 2i1i12 MYMX 1n 1 S a s jejich pomocí zavedeme výběrový koeficient korelace      >= − ⋅ − −= = jinak0 0SSpro SS S S MY S MX 1n 1 R 21 21 12 n 1i 2 2 1 1 12 . Vlastnosti Pearsonova koeficientu korelace se přenášejí i na výběrový koeficient korelace. (Výběrový koeficient korelace není nestranným odhadem skutečného koeficientu korelace, je odhadem vychýleným. Vychýlení je zanedbatelně malé pro rozsahy výběrů nad 30.) Upozornění: nadále budeme předpokládat, že (X1, Y1), ..., (Xn, Yn) je náhodný výběr rozsahu n z dvourozměrného normálního rozložení N2                 σσρσ σρσσ       µ µ 2 221 21 2 1 2 1 , . 1.3. Testování hypotézy o nezávislosti Na hladině významnosti α testujeme H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti - oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0) - levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0) - pravostranné alternativě H1: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0). Testová statistika má tvar: 2 12 12 0 R1 2nR T − − = . Platí-li nulová hypotéza, pak T0 ~ t(n-2). Kritický obor pro test H0 proti - oboustranné alternativě: ( )( ( ) )∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1 , - levostranné alternativě: ( )( 2nt,W 1 −−∞−= α− , - pravostranné alternativě: ( ) )∞−= α− ,2ntW 1 . H0 zamítáme na hladině významnosti α, když Wt0 ∈ . 1.4. Příklad V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y. Řešení: Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu. 10 15 20 25 30 x 50 60 70 80 90 100 110 120 y Vidíme, že předpoklad dvourozměrné normality je oprávněný. Vypočteme realizace výběrových průměrů: m1 = = n 1i ix n 1 = 18,267, m2 = = n 1i iy n 1 = 83,6, výběrových rozptylů: s1 2 = ( )= − − n 1i 2 1i mx 1n 1 = 5,6381, s2 2 = ( )= − − n 1i 2 2i my 1n 1 = 121,4, výběrové kovariance: s12 = ( )( )= −− − n 1i 2i1i mymx 1n 1 = 24,2571, výběrového koeficientu korelace: 21 12 12 ss s r = = 0,927. Realizace testové statistiky: 912,8 927,01 215927,0 r1 2nr t 22 12 12 0 = − − = − − = , kritický obor ( )( ( ) ) ( )∞∪−∞−=∞∪−∞−= ,012,3012,3,,13t13t,W 995,0995,0 . Protože Wt0 ∈ , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1 % jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost. Počítačový výstup Korelace (smeny a vyrobky.sta) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X Y 18,26667 2,37447 83,60000 11,01817 0,927180 0,859663 8,923795 0,000001 15 5,010135 4,302365 1,562407 0,199812 Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající p-hodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y. Vypočítáme výběrový koeficient korelace mezi počtem směn a počtem výrobků a provedeme test nezávislosti: cor.test(X,Y) Pearson's product-moment correlation data: X and Y t = 8.9238, df = 13, p-value = 6.629e-07 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.7902582 0.9759200 sample estimates: cor 0.9271801 1.5. Interval spolehlivosti pro koeficient korelace Náhodná veličina 12 12 R1 R1 ln 2 1 Z − + = (tzv. Fisherova Z-transformace koeficientu korelace) má přibližně normální rozložení se střední hodnotou ( ) ( )1n21 1 ln 2 1 ZE − ρ + ρ− ρ+ = (2. sčítanec lze při větším n zanedbat) a rozptylem ( ) 3n 1 ZD − = . Standardizací veličiny Z dostaneme veličinu )Z(D )Z(EZ U − = , která má asymptoticky rozložení N(0,1). Tudíž 100(1-α)% asymptotický interval spolehlivosti pro ρ− ρ+ 1 1 ln 2 1 bude mít meze 3n u Z 2/1 − ± α− . Interval spolehlivosti pro ρ pak dostaneme zpětnou transformací. Poznámka: Jelikož Z = arctgh R12, dostáváme R12 = tgh Z a meze intervalu spolehlivosti pro ρ můžeme psát ve tvaru       − ± α− 3n u Ztgh 2/1 , přičemž xx xx ee ee xtgh − − + − = . 1.6. Příklad: Učitel tělocviku zjišťoval, zda existuje vztah mezi počtem shybů (veličina X) a počtem kliků (veličina Y) u 15 náhodně vybraných chlapců: Číslo chlapce1 2 3 45 6 78 9 101112131415 Počet shybů 1 3 2 05 6 14 3 5 6 2 1 1 8 Počet kliků 1015150402573130354110149 64 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 15 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. -6 -4 -2 0 2 4 6 8 10 12 X -20 0 20 40 60 Y Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Testujeme H0: ρ = 0 proti H1: ρ ≠ 0. Vypočítáme R12 = 0,9276, tedy mezi počtem shybů a počtem kliků existuje silná přímá lineární závislost. Testová statistika: T = 8,9511, kvantil t0,975(13) = 2,1604, kritický obor ( )∞∪−∞−= ,1604,21604,2,W . Jelikož WT ∈ , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Vypočítáme 6409,1 9276,01 9276,01 ln 2 1 R1 R1 ln 2 1 Z 12 12 = − + = − + = . Meze 95% asymptotického intervalu spolehlivosti pro ρ jsou       ± 12 96,1 6409,1tgh , tedy 0,7914 < ρ < 0,9761 s pravděpodobností přibližně 0,95. Počítačový výstup Odhad intervalu Jedna korelace, t-test Hodnota Pozorovaný korel. koef. R Korelace dle nulové hypotézy (Ró0) Oboustranná p-hodnota Velikost vz. ve skup. (N) Interval spolehlivosti Meze spolehlivosti (Fisher. Z původní): Ró: Dolní mez Horní mez 0,9276 0,0000 0,0000 15,0000 0,9500 0,7914 0,9761 95% asymptotický interval spolehlivosti pro koeficient korelace ρ má tedy meze 0,7914 a 0,9761. (Protože nepokrývá hodnotu 0, zamítáme hypotézu o nezávislosti veličin X, Y na asymptotické hladině významnosti 0,05.) 2. Vícenásobná korelace 2.1. Varianční, korelační a kovarianční matice Nechť X = (X1, …, Xp)’ je náhodný vektor. Označme μi = E(Xi) střední hodnotu náhodné veličiny Xi, σi 2 = D(Xi) rozptyl náhodné veličiny Xi, σij = C(Xi, Xj) kovarianci náhodných veličin Xi, Xj (přitom σii = σi 2 ) ρij = R(Xi, Xj) koeficient korelace náhodných veličin Xi, Xj Vektor E(X) = (μ1, …, μp)’ se nazývá vektor středních hodnot náhodného vektoru X. Čtvercová matice řádu p var(X) = (σij)i,j=1, …, p se nazývá varianční matice náhodného vektoru X. Čtvercová matice řádu p cor(X) = (ρij) i,j=1, …, p se nazývá korelační matice náhodného vektoru X. Je zřejmé, že varianční matice a korelační matice jsou symetrické. Nechť X = (X1, …, Xp)’ a Y = (Y1, …, Yq)’ jsou náhodné vektory. Matice typu pxq cov(X,Y) = (C(Xi, Yj)) se nazývá kovarianční matice vektorů X, Y. Matice typu pxq cor(X,Y) = (ρ(Xi, Yj)) se nazývá korelační matice vektorů X,Y. 2.2. Odhady pro jeden náhodný vektor Nechť X je náhodný vektor, který má p-rozměrné rozložení s vektorem středních hodnot μ, varianční maticí var(X) a korelační maticí cor(X). Nechť je dán náhodný výběr X1 = (X11, …, X1p)’, …, Xn = (Xn1, …, Xnp)’ rozsahu n z tohoto rozložení. Nestranný odhad vektoru μ je vektor výběrových průměrů M = (M1, …, Mp)’, kde  = = n 1i ijj X n 1 M je výběrový průměr j-tého výběru, j = 1, …, p. Nestranný odhad matice var(X) je výběrová varianční matice ( )p 1j,iijS = =S , což je symetrická matice řádu p. Vychýlený odhad matice cor(X) je výběrová korelační matice ( )p 1j,iijR = =R kde Rij je výběrový korelační koeficient i-té a j-té složky vektoru X, tedy jjii ij ij SS S R = , i, j = 1, …, p. (Je zřejmé, že diagonální prvky matice R jsou jedničky a matice R je symetrická.) 2.3. Příklad: U 28 náhodně vybraných osob byly zjišťovány tyto údaje: Sex … 1 – muž, 2 – žena (mužů i žen bylo po 14) výška (v cm), hmotnost (v kg), boty (číslo bot). Vypočtěte realizaci výběrové varianční matice a výběrové korelační matice. (Soubor udaje_o_lidech_1.sta) Řešení: Výběrová varianční matice Proměnná vyska hmotnost boty vyska hmotnost boty 112,8611 161,0926 41,45370 161,0926 248,4709 61,99206 41,4537 61,9921 16,40608 Výběrová korelační matice Proměnná vyska hmotnost boty vyska hmotnost boty 1,000000 0,961979 0,963360 0,961979 1,000000 0,970948 0,963360 0,970948 1,000000 Z výběrové varianční matice plyne, že největší variabilitu má hmotnost, pak výška a nakonec číslo bot. Z výběrové korelační matice plyne, že mezi všemi třemi dvojicemi proměnných existuje velmi silná přímá lineární závislost, nejsilnější je mezi hmotností a velikostí bot. Výpočet v systému R: Načteme data: data<-read.table('udaje_o_lidech_1.txt',sep=',',header=T) Vypočteme výběrovou varianční matici: cov(data[,2:4], method='pearson') vyska hmotnost boty vyska 112.8611 161.09259 41.45370 hmotnost 161.0926 248.47090 61.99206 boty 41.4537 61.99206 16.40608 Vypočteme výběrovou korelační matici: cor(data[,2:4], method='pearson') vyska hmotnost boty vyska 1.0000000 0.9619791 0.9633602 hmotnost 0.9619791 1.0000000 0.9709477 boty 0.9633602 0.9709477 1.0000000 2.4. Odhady pro dva náhodné vektory Nechť náhodný vektor X má p-rozměrné rozložení a nechť X1, …, Xn je náhodný výběr z tohoto rozložení. Nechť náhodný vektor Y má q-rozměrné rozložení a nechť Y1, …, Yn je náhodný výběr z tohoto rozložení. Předpokládejme, že obě rozložení mají konečné druhé momenty. Nechť cov(X, Y) je kovarianční matice těchto vektorů a cor(X, Y) je korelační matice těchto vektorů. Označme q,...,1j,Y n 1 M,p,...,1j,X n 1 M n 1i ijYj n 1i ijXj ====  == , MX = (MX1, …, MXp)’, MY = (MY1, …, MYq)’. Nestranným odhadem kovarianční matice cov(X, Y) vektorů X, Y je výběrová kovarianční matice vektorů X, Y definovaná vzorcem SXY = (Sij), kde Sij je výběrová kovariance i-té a j-té složky vektorů X, Y, i = 1, …, p, j = 1, …, q. Vychýleným odhadem korelační matice cor(X, Y) vektorů X, Y je výběrová korelační matice vektorů X, Y definovaná vzorcem RXY = (Rij), kde Rij je výběrový korelační koeficient i-té a j-té složky vektorů X, Y, i = 1, …, p, j = 1, …, q. 2.5.Příklad: Nechť vektor X = (X1, X2, X3)’ obsahuje údaje o výšce, hmotnosti a číslu bot mužů, vektor Y =(Y1, Y2)’ obsahuje údaje výšce a hmotnosti žen. Vypočtěte realizace výběrové kovarianční a výběrové korelační matice vektorů X, Y. (Soubor udaje_o_lidech_2.sta) Řešení: Výběrová kovarianční matice Efekt Sloup.4 Vyska_z Sloup.5 Hmotnost_z Vyska_m Hmotnost_m Boty_m 10,81319 17,39560 15,70879 15,22527 4,43407 5,13736 Výběrová korelační matice Efekt Sloup.4 Vyska_z Sloup.5 Hmotnost_z Vyska_m Hmotnost_m Boty_m 0,467318 0,767160 0,514047 0,508409 0,560289 0,662427 Výpočet v systému R: Načteme data: data<-read.table('udaje_o_lidech_2.txt',sep=',',header=T) Vypočteme výběrovou varianční matici všech proměnných a uložíme ji do objektu S: S<-cov(data, method='pearson') S Vyska_m Hmotnost_m Boty_m Vyska_z Hmotnost_z Boty_z Vyska_m 28.417582 30.637363 8.4505495 10.813187 17.395604 3.2857143 Hmotnost_m 30.637363 49.565934 10.3131868 15.708791 15.225275 4.4725275 Boty_m 8.450549 10.313187 3.3241758 4.434066 5.137363 0.8021978 Vyska_z 10.813187 15.708791 4.4340659 18.840659 14.258242 3.7912088 Hmotnost_z 17.395604 15.225275 5.1373626 14.258242 18.093407 4.1208791 Boty_z 3.285714 4.472527 0.8021978 3.791209 4.120879 1.6043956 Z matice S vybereme příslušné řádky a sloupce: S<-S[1:3,4:5] > S Vyska_z Hmotnost_z Vyska_m 10.813187 17.395604 Hmotnost_m 15.708791 15.225275 Boty_m 4.434066 5.137363 Vypočteme výběrovou korelační matici všech proměnných a uložíme ji do objektu R: R<-cor(data, method='pearson') R Vyska_m Hmotnost_m Boty_m Vyska_z Hmotnost_z Boty_z Vyska_m 1.0000000 0.8163308 0.8694596 0.4673176 0.7671597 0.4866094 Hmotnost_m 0.8163308 1.0000000 0.8034507 0.5140473 0.5084091 0.5015401 Boty_m 0.8694596 0.8034507 1.0000000 0.5602890 0.6624270 0.3473631 Vyska_z 0.4673176 0.5140473 0.5602890 1.0000000 0.7722497 0.6895630 Hmotnost_z 0.7671597 0.5084091 0.6624270 0.7722497 1.0000000 0.7648460 Boty_z 0.4866094 0.5015401 0.3473631 0.6895630 0.7648460 1.0000000 Z matice R vybereme příslušné řádky a sloupce: R<-R[1:3,4:5] R Vyska_z Hmotnost_z Vyska_m 0.4673176 0.7671597 Hmotnost_m 0.5140473 0.5084091 Boty_m 0.5602890 0.6624270 2.6. Koeficient vícenásobné korelace Intenzitu lineární závislosti mezi náhodnou veličinou Y a náhodným vektorem X = (X1, …, Xp)’ měříme pomocí koeficientu vícenásobné korelace ρY. X. Jeho druhá mocnina je dána vzorcem ρY. X 2 = cor(Y, X) cor(X)-1 cor(X, Y). Má tyto vlastnosti: a) ρY. X ≥ 0 b) ρY. X ≥ ( ) p1,...,iproX,Y i =∀ρ c) ( )1XX.YX...X.Y X,Y... 21p1 ρ≥ρ≥≥ρ d) ρY. X = 1⇔ existují konstanty β0, β1, …, βp tak, že Y = β0 + β1X1 +… + βp Xp. 2.7. Výběrový koeficient vícenásobné korelace Nechť náhodný vektor (Y, X1, …, Xp)’ má (p+1)-rozměrné rozložení s koeficientem mnohonásobné korelace ρY. X. Nechť je dán náhodný výběr (Y1, X11, …, X1p)’, …, (Yn, Xn1, …, Xnp)’ rozsahu n z tohoto rozložení. Pak jako odhad ρY. X slouží výběrový koeficient vícenásobné korelace rY. X, jehož druhá mocnina je dána vzorcem rY. X 2 = RYX R-1 RXY, kde RYX je výběrová korelační matice veličiny Y a vektoru X (v tomto případě se redukuje na vektor ( )p1 YXYX r,...,r ) a R je výběrová korelační matice vektoru X. Vlastnosti koeficientu vícenásobné korelace se přenášejí i na výběrový koeficient vícenásobné korelace. Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina X1 – v letech) a době zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje: Y 67 65 75 66 77 84 69 60 70 66 X1 43 40 49 46 41 41 48 34 32 42 X2 6 8 14 14 8 12 16 1 5 7 Vypočtěte výběrový koeficient vícenásobné korelace ( )21 X,X,Yr popisující závislost hodinové výkonnosti dělníka na jeho věku a době zapracovanosti. Řešení: Koeficient ( )21 X,X,Yr najdeme v záhlaví výstupní tabulky pod označením R = 0,54. Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 N=10 b* Sm.chyba z b* b Sm.chyba z b t(7) p-hodn. Abs.člen X1 X2 86,74217 25,32397 3,425299 0,011056 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 0,920415 0,598452 1,35062 0,87817 1,537994 0,167937 Jeho druhá mocnina (ozn. R2) nám říká, že variabilita výkonů dělníků je z 29 % vysvětlena jejich věkem a dobou zapracovanosti. 2.8. Test hypotézy o nevýznamnosti koeficientu vícenásobné korelace Nechť náhodný výběr (Y1, X11, …, X1p)’, …, (Yn, Xn1, …, Xnp)’ pochází z (p+1)-rozměrného normálního rozložení, které má koeficient vícenásobné korelace ρY. X. Musí platit n > p+1. Testujeme hypotézu H0: ρY. X = 0 proti H1: ρY. X ≠ 0. Vzhledem k tomu, že se jedná o výběr z (p+1)-rozměrného normálního rozložení, testujeme, zda existuje závislost mezi veličinou Y a vektorem X. (Je-li ρY. X = 0, pak z vlastnosti (b) plyne, že ρ(Y,Xi) = 0 pro všechna i = 1, …, p, tudíž náhodné veličiny Y a Xi jsou stochasticky nezávislé pro všechna i = 1, …, p.) Testová statistika 2 .Y 2 .Y r1 r p 1pn F X X − ⋅ −− = se řídí rozložením F(p, n-p-1), pokud H0 platí. Kritický obor: ( ) )∞−−= α− ,1pn,pFW 1 . Jestliže WF∈ , H0 zamítáme na hladině významnosti α. 2.9. Příklad Předpokládáme, že údaje o výkonnosti 10 náhodně vybraných dělníků, jejich věku a době zapracovanosti představují číselné realizace náhodného výběru rozsahu 10 ze třírozměrného normálního rozložení. Na hladině významnosti 0,05 testujte hypotézu, že výkon dělníka nezávisí na jeho věku a době zapracovanosti. Řešení: Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 N=10 b* Sm.chyba z b* b Sm.chyba z b t(7) p-hodn. Abs.člen X1 X2 86,74217 25,32397 3,425299 0,011056 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 0,920415 0,598452 1,35062 0,87817 1,537994 0,167937 Hodnota testové statistiky pro test nevýznamnosti koeficientu vícenásobné korelace ( )21 X,X,Yρ je 1,4411, počet stupňů volnosti čitatele je 2, jmenovatele 7, odpovídající p-hodnota je 0,2991, tedy na hladině významnosti 0,05 nezamítáme hypotézu, že výkon dělníka není závislý na jeho věku a době zapracovanosti. Výpočet v systému R: Načteme data a pojmenujeme proměnné: data<-read.delim('vykony delniku.txt',sep=' ', header=T) Y<-data$Y X1<-data$X1 X2<-data$X2 Vytvoříme model lineární regrese a vypíšeme jeho výstup: vystup<-lm(Y~X1+X2) summary(vystup) Call: lm(formula = Y ~ X1 + X2) Residuals: Min 1Q Median 3Q Max -7.4367 -4.4717 -0.9345 3.3150 9.7630 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 86.7422 25.3240 3.425 0.0111 * X1 -0.7003 0.7607 -0.921 0.3879 X2 1.3506 0.8782 1.538 0.1679 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 6.649 on 7 degrees of freedom Multiple R-squared: 0.2917, Adjusted R-squared: 0.08927 F-statistic: 1.441 on 2 and 7 DF, p-value: 0.2991 3. Parciální korelace 3.1. Koeficient parciální korelace Nechť Y, Z jsou náhodné veličiny a X = (X1, …, Xp)’ je náhodný vektor. Koeficient korelace ρ(Y,Z) udává míru těsnosti lineárního vztahu mezi veličinami Y a Z. Ta však může být ovlivněna i tím, že mezi veličinami X1, …, Xp existují veličiny, které silně korelují jak s Y, tak se Z. Zajímá nás proto, jaká je „čistá“ korelace mezi Y a Z, když se eliminuje vliv náhodného vektoru X. Pokud se omezíme na lineární vztahy, můžeme vliv vektoru X na veličinu Y popsat lineární regresní funkcí pp110 Xb...XbbY +++= ) . Tu část veličiny Y, kterou vektor X nevysvětlí, si můžeme představit jako reziduum Y - Y ) . Analogicky pro veličinu Z dostáváme pp110 Xa...XaaZ +++= ) , tudíž reziduum Z - Z ) chápeme jako tu část veličiny Z, kterou vektor X nevysvětlí. Koeficient korelace mezi rezidui Y - Y ) a Z - Z ) se nazývá parciální korelační koeficient mezi náhodnými veličinami Y a Z při pevně daném vektoru X a značí se X.Z,Y ρ . Tedy X.Z,Y ρ = ρ(Y - Y ) , Z - Z ) ). Počítá se podle vzorce ( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] ( ) ( ) ( )[ ]ZX,corXcorXZ,cor1YX,corXcorXY,cor1 ZX,corXcorXY,corZY,ρ ρ 11 1 Z.XY, −− − −− − = . 3.2. Výběrový koeficient parciální korelace Nechť náhodný vektor (Y, Z, X1, …, Xp)’ pochází z (p+2)-rozměrného rozložení, které má parciální korelační koeficient X.Z,Y ρ . Nechť je dán náhodný výběr (Y1, Z1, X11, …, X1p)’, …, (Yn, Zn, Xn1, …, Xnp)’ rozsahu n z tohoto rozložení. Musí platit n > p+2. Jako odhad X.Z,Yρ slouží výběrový parciální korelační koeficient X.Z,Y r : [ ][ ]Z 1 ZY 1 Y Z 1 YYZ Z.Y, RRR1RRR1 RRRr r XXXXXXXX XXXX X −− − −− − = 3.3. Test hypotézy o nevýznamnosti koeficientu parciální korelace Budeme předpokládat, že uvedený náhodný výběr pochází z (p+2)-rozměrného normálního roz- ložení. Testujeme hypotézu H0: ρY, Z . X = 0 proti H1: ρY, Z . X ≠ 0. Vzhledem k tomu, že se jedná o výběr z normálního rozložení, testujeme, zda existuje závislost mezi Y a Z při eliminaci vlivu X. Testová statistika 2 .Z,Y .Z,Y 0 r1 2pnr T X X − −− = se řídí rozložením t(n-p-2), pokud H0 platí. Kritický obor: ( )( ( ) )∞−−∪−−∞−= α−α− ,2pnt2pnt,W 2/12/1 . Jestliže WT0 ∈ , H0 zamítáme na hladině významnosti α. 3.4. Příklad Pro data z příkladu o výkonnosti dělníků vypočtěte výběrové parciální korelační koeficienty 1221 X.X,YX.X,Y r,r , interpretujte je, porovnejte je s obyčejnými výběrovými korelačními koeficienty 21 YXYX r,r a pro α = 0,05 otestujte významnost uvedených parciálních korelačních koeficientů. Řešení: Nejprve vypočteme párový koeficient korelace mezi výkonem a věkem. Proměnná X1 Y 0,2287 Dále vypočteme parciální korelační koeficient mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti a otestujeme jeho významnost. Proměnná Y X1 Y X1 1,0000 -,3286 p= --- p=,388 -,3286 1,0000 p=,388 p= --- Korelační koeficient mezi výkonem a věkem vyšel 0,2287, tedy s rostoucím věkem roste výkon. Parciální korelační koeficient mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti vyšel -0,3286, tedy u dělníků se stejnou dobou zapracovanosti klesá s rostoucím věkem výkon. Odpovídající p-hodnota je 0,388, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti 21 X.X,Yρ . Nyní vypočteme koeficient korelace mezi výkonem a dobou zapracovanosti: Proměnná X2 Y 0,4538 Dále vypočteme parciální korelační koeficient mezi výkonem a dobou zapracovanosti při vyloučení vlivu věku pracovníka a otestujeme jeho významnost. Proměnná Y X2 Y X2 1,0000 ,5026 p= --- p=,168 ,5026 1,0000 p=,168 p= --- Korelační koeficient mezi výkonem a dobou zapracovanosti vyšel 0,4538, tedy čím delší doba zapracovanosti, tím lepší výkon dělník podává. Parciální korelační koeficient mezi výkonem a dobou zapracovanosti při vyloučení vlivu věku vyšel 0,5026, tedy u stejně starých dělníků je poněkud silnější přímá lineární vazba mezi výkonem a dobou zapracovanosti. Odpovídající p-hodnota je 0,168, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti 12 X.X,Yρ . Výpočet v systému R: Vypočteme nejprve párové korelační koeficienty: cor(data) Y X1 X2 Y 1.000000 0.2286800 0.4537570 X1 0.228680 1.0000000 0.8470271 X2 0.453757 0.8470271 1.0000000 Načteme knihovnu ppcor: Library(ppcor) Vypočteme parciální korelační koeficienty: pcor(data) $estimate (výběrové parciální koeficienty korelace) Y X1 X2 Y 1.0000000 -0.3286296 0.5025635 X1 -0.3286296 1.0000000 0.8567741 X2 0.5025635 0.8567741 1.0000000 $p.value (p-hodnoty pro test nevýznamnosti parciálních korelačních koeficientů) Y X1 X2 Y 0.0000000 0.38788283 0.16793749 X1 0.3878828 0.00000000 0.00317348 X2 0.1679375 0.00317348 0.00000000 $statistic (testové statistiky pro test nevýznamnosti parciálních korelačních koeficientů) Y X1 X2 Y 0.0000000 -0.9206035 1.537994 X1 -0.9206035 0.0000000 4.395670 X2 1.5379945 4.3956702 0.000000