MA012 Statistika II 6. Korelační analýza: korelace a koeficient determinace, pořadové korelační koeficienty Ondřej Pokora (pokora@math.muni.cz) Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno (podzim 2015) Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II 1/30 Motivační příklady Příklad 1 Byly sledovány výdaje (V) 7 domácností (v tisících Kč za 3 měsíce) za potraviny a nápoje v závislosti na počtu členů domácnosti (C) a na čistém příjmu (P) domácnosti (v tisících Kč za 3 měsíce). v 40 30 40 10 60 40 50 c 4 2 4 1 5 3 4 p 100 80 120 30 150 120 130 Zkoumejte závislosti (asociovanost) veličin. Příklad 2 20 dětí různého věku se podrobilo pedagogicko-psychologickému výzkumu, v rámci něhož mj. odpovídaly na tytéž otázky testu a byly váženy. Překvapivý výsledek přinesl korelační koeficient mezi hmotností dětí a počtem bodů dosažených v testu, jehož hodnota vyšla 0,968. Znamená to, že obezita má pozitivní vliv na schopnost učení? Prozkoumejte závislosti (asociovanost) veličin. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II 2/30 Funkce pro výběrové korelační koeficienty v R Pearson ů v ryz rcorr (X) * cor (X, Y) cor.test (X, Y) cor (X) parciální pcor (X) * pcor.test (X, Y) * semiparciální rY (Z • X) spcor (X) * spcor.test (X, Y) * mnohonásobný ry.x R2 ve výsledku LRM funkcí lm * library (Hmisc), * library (ppcor) Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II 3/30 Testy významnosti korelačních koeficientů Věta 1 Za platnostipyz.x — 0 Je T rYZ-x n -P- 2 1 -r2 rYZ X t(n — p — 2); koeficient parciální korelace je tedy na hladině oc významný, pokud 1^1 > h-ocn(n-p-2). Věta 2 (analogie celkového F-testu v lineárním regresním modelu) Za platnosti py .x = 0 je n — p — 1 f = y-x V 1 — r2 1 ry-x F(p, n-p-1); koeficient mnohonásobné korelace je tedy na hladině oc významný, pokud F>Fi_Ä(p,n-p-l). Testování významnosti semiparciálních korelačních koeficientů se provádí podobně, pomocí statistiky s F-rozdělením, avšak s jinými stupni volnosti. 4/30 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II Výpočty korelačních koeficientů podle definice Pearsonův Ty z — ľZY — r{X^) ~ r(Z,Y) cor (Y, Z) parciální Tyz-X = rZY X ~ — Z — Z) cor (rY, rZ) semiparciální rY(z-x) — ľ{Yr ^ — Z) cor (Y, rZ) semiparciální rZ(y .\) = ľ{Z,Y— Y) cor (Z, rY) mnohonásobný fy-x = r(^/ ^0 cor (Y> Yhat) Odhady a rezidua přitom získáme vyřešením lineárních regresních modelů: Y = j80 + Xj6 =í> Y, Z = ^0 + X* ^ Ž Symbolický zápis v R\ modelY <- lm (Y ~ XI + . . . + Xp) modelZ <- lm (Z ~ XI + . . . + Xp) rY <- modelY$residuals rZ <- modelZ$residuals Yhat <- modelY$fitted.values Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II 5/30 Koeficient determinace a Pearsonova korelace veličinu Y modelujeme veličou Xi Pearsonův korelační koeficient ľyxi popisuje míru závislosti mezi veličinami Y a X\ koeficient determinace Ry.Xl v LRM XI popisuje, jakou část celkové variability veličiny Y lze vysvětlit veličinou X\ kvadrát Pearsonova korelačního koeficientu popisuje, jakou část celkové variability veličiny Y lze vysvětlit veličinou Xi, RyXl = R YXi MA012 Statistika II - 6. Korelační analýza II e/so m Koeficient determinace a mnohonásobná korelace veličinu Y modelujeme veličinami Xi,X2 koeficient mnohonásobné korelace ry.x1x2 popisuje míru závislosti mezi Y a nejlepší lineárni kombinací Y veličin Xi,X2 koeficient determinace ^y.x1x2 v LRM Y ~ XI + X2 popisuje, jakou část celkové variability veličiny Y lze vysvětlit veličinami Xi,X2 kvadrát koeficientu mnohonásobné korelace popisuje, jakou část celkové variability veličiny Y lze vysvětlit veličinami Xi,X2, y • Xi x2 R2 1XY • Xi X2 R2 KY • Xi X2 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II 7/30 Koeficient determinace a parciální korelace veličinu Y modelujeme veličinou Xi, přičemž vylučujeme vliv veličiny X2 na obě tyto veličiny zároveň koeficient parciální korelace ľyx1-x2 popisuje míru závislosti mezi Y a Xi při vyloučení vlivu X2 na obě tyto veličiny zároveň kvadrát koeficientu parciální korelace popisuje, jakou část variability veličiny Y nezávislé na veličině X2 lze vysvětlit samotnou veličinou Xi, YX1-X2 variabilita Y v oranžové oblasti variabilita Y v zelené oblasti Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II 8/30 Koeficient determinace a parciální korelace MA012 Statistika 11-6. Korelační analýza II 9/30 Koeficient determinace a semiparciální korelace veličinu Y modelujeme veličinou Xi, přičemž vylučujeme vliv veličiny X2 na veličinu Xi koeficient parciální korelace ryx1-x2 popisuje míru závislosti mezi Y a Xi při vyloučení vlivu X2 na veličinu Xi kvadrát koeficientu parciální korelace popisuje, jakou část celkové variability veličiny Y lze vysvětlit samotnou veličinou Xi, R2 1XY • X1 X2 ry.(x1x2) - Ky-*2 _R2 — AY • Xi X2 R Y-X, MA012 Statistika 11-6. Korelační analýza II Souvislost koeficientů korelace a determinace Věta 3 Kvadrát koeficientu mnohonásobné korelace je rovný koeficientu determinace, r2 - R2 rY-ZX — ^YZ x Věta 4 Pro kvadrát výběrového parciálního korelačního koeficientu platí YZ-X ZY-X R2 — R2 1XYZX 1XY-X !-4.x J?2 _ J?2 !-4-x Věta 5 Pro kvadrát výběrového semiparciálního korelačního koeficientu platí TY{Z-X) — ^y-zx ^yx ' rz(yx) — RZYX &ZX Ry.x> resP- 4-zx1 Je koeficient determinace R2 v lineárním regresním modelu Y ~ X, resp. Y <- Z + X. Přitom X = (Xi,... ,Xp) může být vektor veličin. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II 11/30 I Vlastnosti korelačních koeficientů Korelační koeficienty nabývají hodnot z intervalu [—1; 1 -l 0, ft = 3,192 > 0 * **, R2 MA012 Statistika 11-6. Korelační analýza II Příklad 2: scatter-plot a regresní rovina rovnice regresní roviny: Body = 11,065 + 0,095Hmotnost + 3,192 Vek MA012 Statistika 11-6. Korelační analýza II Příklad 2: korelogramy Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II Spearmanův pořadový korelační koeficient Neparametrickou analogií korelačního koeficientu r je Spearmanův pořadový korelační koeficient r$. Je definován jako Pearsonův korelační koeficient mezi (průměrnými) pořadími v uspořádaných náhodných výběrech. Používáme jej zejména v situacích, kdy náhodné výběry mají výrazně nenormální rozdělení pravděpodobnosti. Označme R\,...,Rn, resp. S\,...,Sn pořadí Xj a Yj v uspořádaných výběrech X(1) < • • • < X(n)/ resp. Y(1) < • • • < Y{n). Definice 6 (Spearmanův korelační koeficient) r s = r(R,S) = 1-6 G [-1;1 n{nz — 1) kde dj = Rj — Sj jsou rozdíly pořadí v X-ovém a Y-ovém náhodném výběru N^^^^ýpočetj^mp^^ Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II 22/30 Test významnosti Spearmanova r s Test významnosti rg, tedy test hypotézy o nulovosti rg, lze provádět pomocí některé z následujících testovacích statistik. Věta 7 (Test významnosti Spearmanova korelačního koeficientu) Hypotézu Hq : rs = 0 na hladině významnosti oc, pokud T\ >h-u/2(n-2) pro T = r s 'n -2 1 -r2 rs nebo pokud pro n-3 1 l + rs Z=WW2lnľ^ V R je test implementován ve funkci cor.test (X, Y, method=,,spearmann) MA012 Statistika 11-6. Korelační analýza II 23/30 Kendallův korelační koeficient Na principu pořadí, konkrétně souhlasného či nesouhlasného pořadí párů, je založen i další pořadový korelační koeficient, tzv. Kendallovo r, Definice 8 (Kendallův korelační koeficient) n+ — n Vn0 ~ nxVn0 - nY ■ Hq = \n{n — 1) = počet všech párů, ■ n+ = počet konkordantních párů, ■ ti- = počet diskordantních párů, ■ nx = E* \uí{uí - 1), resp. ny = Ey ^;(^; - 1). kde Uj, resp. jsou počty opakování hodnot v X-ovém, resp. Y-ovém výběru Páry (Xz/Yz) a (Xy, Yy) nazýváme ■ konkordantní, pokud jsou pořadí jejich elementů souhlasná, tzn. Xf < Xj & Y; < Yy, anebo X; > Xy & Yz- > Yy ■ diskordantní, pokud jsou pořadí jejich elementů nesouhlasná, tzn. Xf < Xy & Yi > Yy, anebo Xf > X7- & Yf < Y Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-6. Korelační analýza II 24/30 Test významnosti Kendallova r Výpočet Kendallova T v R: cor (X, Y, method=,,kendalln) Asymptotický test významnosti t je v prípade neopakovaných hodnot v náhodných výběrech založen na asymptotické normalitě r, s Er = 0, za platnosti nulové hypotézy H q : t = 0. Věta 9 (Asymptotický test významnosti Kendallova r) Hypotézu Hq : r = 0 zamítáme na asymptotické hladině cc, pokud Pro malé rozsahy nav prípade výskytu opakovaných hodnot v některém náhodném výběru se používají korigované r-statistiky Test významnosti Kendallova T v R: cor.test (X, Y, method=,,kendalln) MA012 Statistika 11-6. Korelační analýza II 25/30 Příklad 1: výpočet Spearmanova rs(C, V) V 40 30 40 10 60 40 50 c 4 2 4 1 5 3 4 p 100 80 120 30 150 120 130 průměry R = pořadí V 4 2 4 1 7 4 6 4 S = pořadí C 5 2 5 1 7 3 5 4 T = pořadí P 3 2 4,5 1 7 4,5 6 4 součty R-S 20 4 20 1 49 12 30 136 ST 15 4 22,5 1 49 13,5 30 135 R-T 12 4 18 1 49 18 36 138 R2 16 4 16 1 49 16 36 138 S2 25 4 25 1 49 9 25 138 T2 9 4 20,25 1 49 20,25 36 139,5 rs(C,V) = r(R,S) U=1(RiSi)-nRS LURJ-nR\/LUSJ-nS2 136 - 7 • 42 138 - 7 • 42 = 0,923 MA012 Statistika 11-6. Korelační analýza II Prfklad 1: Spearmanuv rs(C, V) v R R <- rank (V) S <- rank (C) cor (R, S) cor (C, V, method = "spearman") cor.test (C, V, method = "spearman") Spearmans rank correlation rho data: C and V S = 4.3077, p-value = 0.003023 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.9230769 Ondrej Pokora, PrF MU (2015) MA012 Statistika 11-6. Korelacnf analyza II 27/30 Prfklad 1: Kendallovo t(C,V) v R cor (C, V, method = "kendall") cor.test (C, V, method = "kendall") Kendalls rank correlation tau data: C and V z = 2.6146, p-value = 0.008933 alternative hypothesis: true tau is not equal to 0 sample estimates: tau 0.8888889 MA012 Statistika 11-6. Korelacnf analyza II Příklad 1: výpočet Kendallova t(C, V) 1 2 3 4 5 6 7 V C P 40 30 40 10 60 40 50 4 2 4 1 5 3 4 100 80 120 30 150 120 130 Je celkem 21 párů, z toho 16 je konkordantních, žádný diskordantní (konkordantní jsou všechny páry kromě párů na pozicích /-/': 1-3, 1-6, 1-7, 3-6, 3-7). ■ n0 = \7 -6 = 21, ■ n+ = 16 ■ n_ = 0 ■ nc = j3 • 2 = 3, ny = \3 ■ 2 = 3 t(C, v) ii ii 16 — 0 = 0,889 Vno ~ ncVno ~ nv a/21 - 3^21 - 3 MA012 Statistika 11-6. Korelační analýza II Korelační analýza: shrnutí Pearsonův korelační koeficient: definice, výpočet, vlastnosti, interpretace Mnohonásobná lineární regrese: zápis, řešení modelu, geometrický význam Koeficienty mnohonásobné, parciální a semiparciální korelace: definice, interpretace (vysvětlování závislostí mezi sledovanými náhodnými veličinami) ■ Struktura korelační matice, korelogram, scatter-plot Souvislost korelačních koeficientů a koeficientů determinace v LRM (vysvětlení variability) Pořadové korelační koeficienty - Spearmanův a Kendallův: definice, konkordantní a diskordantní páry Význam a interpretace výsledků testů významnosti korelačních koeficientů MA012 Statistika 11-6. Korelační analýza II