MA012 Statistika II 5. Korelační analýza: korelační koeficienty, mnohonásobná lineární regrese Ondřej Pokora (pokora@math.muni.cz) Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno (podzim 2015) Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-5. Korelační analýza I 1/33 Motivační příklady Příklad 1 Byly sledovány výdaje (V) 7 domácností (v tisících Kč za 3 měsíce) za potraviny a nápoje v závislosti na počtu členů domácnosti (C) a na čistém příjmu (P) domácnosti (v tisících Kč za 3 měsíce). v 40 30 40 10 60 40 50 c 4 2 4 1 5 3 4 p 100 80 120 30 150 120 130 Zkoumejte závislosti (asociovanost) veličin. Příklad 2 20 dětí různého věku se podrobilo pedagogicko-psychologickému výzkumu, v rámci něhož mj. odpovídaly na tytéž otázky testu a byly váženy. Překvapivý výsledek přinesl korelační koeficient mezi hmotností dětí a počtem bodů dosažených v testu, jehož hodnota vyšla 0,968. Znamená to, že obezita má pozitivní vliv na schopnost učení? Prozkoumejte závislosti (asociovanost) veličin. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza I 2/33 Teorie pravděpodobnosti: korelační koeficient Z teorie pravděpodobnosti si zopakujme číselné charakteristiky: rozptyl: DX = E(X2) - (EX)2, kovariance: C(X,Y) = E [(X — EX)(Y — EY)] = E(X Y) — EXEY, C(XY) korelační koeficient: pxy VĎXVĎY e [-1; 1]. Uvědomme si, že všechny uvedené číselné charakteristiky jsou teoretické povahy, neboť k výpočtu středních hodnot potřebujeme znát hustoty pravděpodobnosti, resp. pravděpodobnostní funkce, náhodných veličin X, Y: 00 00 EX = J xf(x)dx, E(X2) = J x2f(x)dx, E(XY) = JJ xyf(x,y) dxdy, 00 -00 K2 EX = Y^XVÍX) d*/ E(X2) = ^x2p(x) dx, E(X Y) = ^^xyp(x,y) dx. X X x y V praxi však máme pouze náhodné výběry, ne hustoty/pravděpodobnostní funkce Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza I 3/33 Výběrový korelační koeficient Definice 1 (výběrový korelační koeficient) Předpokládáme, že máme dvoudimenzionální náhodný výběr rozsahu n, ((X1,Y1),...,(Xn,Yn))'. Míru lineární závislosti (asociovanosti) náhodných veličin X a Y odhadujeme pomocí Pearsonova výběrového korelačního koeficientu Sxy výběrová kovariance rxr c2 /q2~ součin výběrových směrodatných odchylek Pro praktické výpočty se používá tvar n n rxY = T L(Xí-X)(Yí-Y) i=l n n n T E (x, - X)' i=l n T E (Yj - Y)' n Z(XiYi)-nXY i=l n ĽX}-nX2jEy}-nY2 i=l Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza I 4/33 Příklad 1: výpočet rev rev = Ľi=1(CiVi)-nCV ĽUCf-nC\/T"=1Vf nV2 průměry V 40 30 40 10 60 40 50 38,571 c 4 2 4 1 5 3 4 3,286 p 100 80 120 30 150 120 130 104,286 součty cv 160 60 160 10 300 120 200 1010 CP 400 60 160 10 300 120 200 2700 P-V 4000 2400 4800 300 9000 4800 6500 31800 v2 1600 900 1600 100 3600 1600 2500 11900 c2 16 4 16 1 25 9 16 87 P2 10000 6400 14400 900 22500 14400 16900 85500 rev 1010 - 7 • 3,286 • 38,571 122,790 ^87 - 7 • 3,286VH900 - 7 • 38,5712 VI1/415 • 1485,846 = 0,942 Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza I 5/33 Výběrové číselné statistiky v R výběrový průměr X mean (X) výběrový rozptyl si var (X) výběrová směrodatná odchylka Vsi sd (X) výběrová kovariance cov (X, Y) výběrový korelační koeficient rxr cor (X, Y) MA012 Statistika II - 5. Korelační analýza I 6/33 m Test významnosti korelačního koeficientu Kromě vlastního odhadu korelačního koeficientu v praxi potřebujeme testovat hypotézu nekorelovanosti veličin X a Y, H0 : pxr = 0, Hi : pXy ^ 0. K tomu slouží statistika T, která má za platnosti Hq Studentovo t-rozdělení, T = r 'n -2 1 _r2 ř(n-2). j Věta 2 (Test významnosti Pearsonova korelačního koeficientu) Ho zamítneme na hladině významnosti oc, pokud T > h_a/2(n - 2) V R je test implementován ve funkci cor.test (X, Y) j Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza I 7/33 Obecný test korelačního koeficientu Pro testování hypotézy, že korelační koeficient je rovný zvolenému po» Hao '• Pxy = Por Hai '• Pxy ŕ POr navrhnul R. A. Fisher statistku Definice 3 (Fisherova Z-transformace) 2 1 — r která má za platnosti H^o normální rozdělení s EZ = Ilni±^, 2 1-po' DZ = n — 3 Věta 4 (Obecný test Pearsonova korelačního koeficientu) H^o zamítneme na hladině významnosti oc, pokud \Jn — 3 Z-iln1+^° 2 1-po Příklad 1: test významnosti rev T = 0,942 5 6,326 > ŕ0/975 (5) 2,571 > Pcv Je významný 1 - 0,9422 2 1 + 0,942 1 - 0,942 3,526 > Wi_a/2 1,96 > Pcv Je významný cor.test (C, V) data: C and V t = 6.3263, df = 5, p-value = 0.001455 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.6544368 0.9917452 sample estimates: cor 0.9428374 MA012 Statistika II - 5. Korelační analýza I Praktický význam korelačního koeficientu ■ Hq nezamítneme, r « 0: =>* není prokázaná lineární závislost veličin X a Y ■ r « 1, Hq zamítneme: =>* je prokázaná lineární závislost veličin X a Y, čím větší X tím větší Y ■ r « —1, Hq zamítneme: =>* je prokázaná lineární závislost veličin X a Y, čím větší X tím menší Y Příklad 1 Spočítali jsme Tqy = 0,942. Lze tedy tvrdit, že čím větší počet členů v domácnosti (C), tím větší celkový čistý příjem (P) domácnosti? Opravdu toto naše data potvrzují? MA012 Statistika II - 5. Korelační analýza I 10/33 Kovarianční matice Definice 5 (Výběrová kovarianční matice) Předpokládejme, že sledujeme celkem p náhodných veličin X\,...,X-p a máme p-rozměrný náhodný výběr rozsahu n, ((Xn, • • • , X\v)\ \(Xni, • • • , Xnp)) Výběrová kovarianční matice je matice výběrových kovariancí Sjj n n — i=l i,] = l,...,p S je symetrická čtvercová matice rozměru p x p, hodnoty na hlavní diagonále jsoi rovny výběrovým rozptylům S^/.-./S^ . Matice je vždy pozitivně semidefinitní. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza I 11/33 Korelační matice Definice 6 (Výběrová korelační matice) Výběrová korelační matice je matice výběrových korel. koeficientů rz/- = ľx x■'■ rxiXi - R je symetrická čtvercová matice rozměru p x p, na hlavní diagonále jsou jedničky. Kovarianční a korelační matice v R cov (X), cor (X), kde X je matice, jejíž sloupce tvoří náhodné výběry z jednotlivých veličin. Pro výpočty p-hodnot testů významnosti korelačních koeficientů je však vhodnější pracovat S funkcí rcorr z library (Hmisc). MA012 Statistika II - 5. Korelační analýza I 12/33 Příklad 1: průměry, kovarianční a korelační matice apply (X, 2, mean) cov (X) cor (X) C P V 3.285714 104.285714 38.571429 C C 1.904 P 50.238 V 20.476 P 50.238 1561.904 607.142 V 20.476 607.142 247.619 C P V C 1.000 0.921 0.942 P 0.921 1.000 0.976 V 0.942 0.976 1.000 MA012 Statistika II - 5. Korelační analýza I Grafická zobrazení Scatter plot Tzv. scatter plot je zobrazení dvourozměrných závislostí mezi všemi dvojicemi náhodných veličin. Kreslí se ve tvaru matice grafů, kdy na pozici (z,/) je vykreslena závislost Xj na Xj pomocí bodového grafu z hodnot odpovídajících náhodných výběrů. V /?: pairs (X) Korelogram Vizuální reprezentaci korelační matice R dává tzv. korelogram. Kreslí se ve tvaru matice grafů, kdy na pozici (z,/') je graficky zobrazena hodnota Tx-x- spolu i j s informací o významnosti daného korelačního koeficientu. V/?: pomocí funkce corrplot z library (corrplot) MA012 Statistika II - 5. Korelační analýza I 14/33 Příklad 1: scatter-plot 40 60 80 120 _J_I_I_I_I_L O o - ■* o o o v i-1-1-1-1-r 10 20 30 40 50 60 MA012 Statistika II - 5. Korelační analýza I Příklad 1: korelační mařice, p-hod noty, korelogram R <- rcorr (X) Příklad 1 o C P V C 1.000 0.921 0.942 P 0.921 1.000 0.976 V 0.942 0.976 1.000 C P V C NA 0.003 0.001 P 0.003 NA 0.000 V 0.001 0.000 NA n □ m W ^ w n n n □ □ Všechny tři dvojice korelačních koeficientů jsou velmi blízké hodnotě 1, a zároveň jsou všechny významné. To ukazuje na lineární závislost v souhlasném smyslu mezi všemi třemi dvojicemi náhodných veličin. Např. čím větší počet členů v domácnosti (C), tím větší celkový čistý příjem (P) domácnosti? Opravdu toto naše data potvrzují? MA012 Statistika II - 5. Korelační analýza I Opakování: lineární regresní model V lineárním regresním modelu jsme dosud pracovali jen s regresní funkcí Y která byla lineární vzhledem ke svým parametrům /S. V případě znalosti dvoudimenzionálního náhodného výběru rozsahu n, ((X1/Y1)/.../(XM/YM))'/ lze lineární model s k parametry zapsat v maticovém tvaru Y = Xj6, kde Y = ( h \ \h-i) a sloupce matice plánu X rozměru (n x k) jsou tvořeny odpovídajícími funkcemi hodnot X\,... ,xn. Připomeňte si např. model s regresní funkcí tvaru polynomu Y = Z^Lq jSzxz, kde parametry j6q, ..., fik-l odpovídají koeficientům mocnin xl. MA012 Statistika II - 5. Korelační analýza I Mnohonásobná lineární regrese Obecně však lze pracovat i s regresním modelem, kde jednorozměrnou máhodnou veličinu Y modelujeme skupinou p náhodných veličin X\,...,Xp. Vycházíme ze znalosti (p + l)-dimenzionálního náhodného výběru rozsahu n, / (Xn, • • • , Xip)\ \(Xni, • • • , Xnp)) a model mnohonásobné lineární regrese zapíšeme v analogickém tvaru Y = Xj6. První sloupec matice X je tvořen n jedničkami, další sloupce jsou postupně tvoří náhodné výběry rozsahu n jednotlivých náhodných veličin, (\ X\\, • • • , X = \1 Xn\, • • • , XnpJ h Y = Vrt MA012 Statistika II - 5. Korelační analýza I Mnohonásobná lineární regrese Pracujeme tedy s modelem s maticovým zápisem Y = Xj6 s maticí plánu X rozměru n x (p + 1) a s (p + 1) parametry, pro jehož řešení používáme klasický postup odhadu parametrů metodou nejmenších čtverců, tzn. j6 = (X'X)_1 X'Y, Ý = X (X'X)_1 X7 Y. Parametry /3i,...,/3p (ne jSq) Jsou přitom lineární koeficienty jednotlivých náhodných veličin Xi,...,Xp, pomocí nichž modelujeme výslednou veličinu Y, tj. Geometrický význam y = To++ • • •+fpXp. Grafem je p-dimenzionální (nad)rovina v prostoru dimenze (p + 1). MA012 Statistika II - 5. Korelační analýza I 20/33 Příklad 1: mnohonásobná lineární regrese model mnohonásobné lineární regrese: V = jSq + j^i-P + fiiC model <- lm (V ~ P + C, data = tabulka) summary (model) Estimate Std. Error t value Pr(>|t|) (Intercept) -1.74142 4.08119 -0.427 0.6916 P 0.28320 0.09473 2.990 0.0404 * C 3.28056 2.71254 1.209 0.2931 Residual standard error: 3.571 on 4 degrees of freedom Multiple R-squared: 0.9657, Adjusted R-squared: 0.9485 F-statistic: 56.25 on 2 and 4 DF, p-value: 0.001179 i MNC-odhady: ß1 = 0,283* > 0, ß2 = 3,281 > 0, R2 = 0,966, F* Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza 1 21/33 Příklad 1: scatter-plot a regresní rovina 40 60 80 120 _l_I_I_I_I_L o o - ■* V i-1-1-1-1-r 10 20 30 40 50 60 2 3 4 5 rovnice regresní roviny: V = —1,741 + 0,283P + 3,281 C Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza I 22 Mnohonásobná korelace (multiple correlation) Definice 7 (Koeficient mnohonásobné korelace) Celkovou míru závislosti mezi náhodnou veličinou Y a náhodnými veličinami X= (Xi,...,Xp) popisujeme koeficientem mnohonásobné korelace, což je korelační koeficient mezi Y a nejlepší lineární aproximací Y pomocí veličin X, Jedná se tedy o největší ze všech absolutních hodnot korelačních koeficientů mezi Y a libovolnou lineární kombinací Y* veličin X, Py-x = ,max |p(Y, Y*) . 11 n. Y* Výběrový koeficient mnohonásobné korelace mezi náhodnou veličinou Y a náhodnými veličinami X = (Xi,... ,Xp) je rY.x = r{Y,Y), kde Y je odhad v LRM Y = j60 + Xj6x. Y~Xl+...+Xp MA012 Statistika II - 5. Korelační analýza I 23/33 Parciální korelace (partial correlation) Definice 8 (Koeficient parciální korelace) Míru ryzí závislosti mezi náhodnými veličinami Y a Z při eliminaci vlivu náhodných veličin X= (Xi,...,Xp) popisujeme koeficientem parciální korelace, což je korelační koeficient mezi rezidui Y — Y a Z — Z při nejlepších lineárních aproximacích Y a Z pomocí veličin X, Pyz-x = p(Y-Y,Z-Ž). Výběrový koeficient parciální korelace mezi náhodnými veličinami Y a Z při eliminaci vlivu náhodných veličin X = (Xi,... ,Xp) je ryz.x = r(Y^Y,Z-Z), kde Y a Ž jsou odhady v LRM Y = fio + Xfi a Z = oc0 + Xoc. Y ~ xi + ... +Xp, z ~ xi + ... +Xp Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza I 24/33 Geometrický význam parciální korelace ľxr-z Sz = (nad)rovina kolmá na z x = nejlepší lineárni odhad veličiny x pomocí z v modelu X= (l,Z)j6 ľ x — X — x = rezidua veličiny x, rx = kolmý průmět x do Sz ý = nejlepší lineárni odhad veličiny y pomocí z v modelu Y= (l,Z)/5 ■ fy = y — ý = rezidua veličiny y, fy = kolmý průmět y do Sz parciálni korelační koeficient rxy.z = cos (p MA012 Statistika II - 5. Korelační analýza I Semiparciální korelace (semipartial/part correlation) Definice 9 (Koeficient semiparciální korelace) Míru ryzí závislosti mezi náhodnými veličinami Y a Z při eliminaci vlivu náhodných veličin X = (X\,...,Xp) na veličinu Z popisujeme koeficientem semiparciální korelace, což je korelační koeficient mezi Y a reziduem Z — Z při nejlepší lineární aproximaci Z pomocí veličin X, Py(z-x) =p(V, Z-Ž). Výběrový koeficient parciální korelace mezi náhodnými veličinami Y a Z při eliminaci vlivu náhodných veličin X = (Xi,... ,Xp) na veličinu Z je ^y(z-x) =r(Y, kde Z je odhad v LRM Z = oĺq + Xoc XI + ... +Xp Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 5. Korelační analýza I 26/33 Geometrický význam semiparciální korelace semiparciální korelační koeficient rx(Y-z) = cos|32r12 ^3-12 y---2 r12-r13r23 ^12 • 3 — r21 • 3 — ľ13\l^ r23 r12 — r13 r23 r12 — r13 r23 '1(2.3) = r-y ' f2(1'3) = A-T MA012 Statistika II - 5. Korelační analýza I Příklad 1: Korelogramy MA012 Statistika II - 5. Korelační analýza I Příklad 2: mnohonásobná lineární regrese model mnohonásobné lineární regrese: Body = /3q + ft\Hmotnost + faVek model <- lm (body summary (model) hmotnost + vek , data Est imate (Intercept) 11 . 06490 hmotnost 0.09466 Std. Error t 1.23693 0.12090 value 8.945 0.783 PrOlt 1) 7.72e-08 *** 0.444 vek 3.19203 0.51058 6.252 8.77e-06 *** Residual standard error: 1.377 on 17 degrees of freedom Multiple R-squared: 0.9806, Adjusted R-squared: 0.9784 F-statistic: 430.4 on 2 and 17 DF, p-value: 2.753e-15 MNČ-odhady: ft = 0,095 > 0, ft = 3,192 > 0 * **, R2 MA012 Statistika II - 5. Korelační analýza I Příklad 2: scatter-plot a regresní rovina rovnice regresní roviny: Body = 11,065 + 0,095Hmotnost + 3,192 Vek MA012 Statistika II - 5. Korelační analýza I Příklad 2: korelogramy MA012 Statistika II - 5. Korelační analýza I