Korelační analýza (jednoduchá, mnohonásobná a parciální korelace) Jednoduchá korelace - opakování Pearsonův koeficient korelace Nechť X, Y jsou náhodné veličiny se středními hodnotami E(X), E(Y) a rozptyly D(X), D(Y). Číslo ( ) ( ) jinak0 0)Y(D)X(Dpro )Y(D)X(D YX,C )Y(D )Y(EY )X(D )X(EX E Y,XR      >=         − ⋅ − = se nazývá Pearsonův koeficient korelace. Vlastnosti Pearsonova koeficientu korelace a) R(a1, Y) = R(X, a2) = R(a1, a2) = 0 b) R(a1 + b1X, a2 + b2Y) = sgn(b1b2) R(X, Y) = ( ) ( )   <− > 0bbproY,XR 0bbproY,XR 21 21 c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak d) R(X, Y) = R(Y, X) e) 1)Y,X(R ≤ a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.) Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Definice nekorelovanosti Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) Výběrový koeficient korelace Nechť (X1, Y1), ..., (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry ∑ = = n 1i i1 X n 1 M , ∑ = = n 1i i2 Y n 1 M , výběrové rozptyly ( )∑ = − − = n 1i 2 1i 2 1 MX 1n 1 S , ( )∑ = − − = n 1i 2 2i 2 2 MY 1n 1 S , výběrovou kovarianci ( )( )∑ = −− − = n 1i 2i1i12 MYMX 1n 1 S a s jejich pomocí zavedeme výběrový koeficient korelace      >= − ⋅ − −= ∑= jinak0 0SSpro SS S S MY S MX 1n 1 R 21 21 12 n 1i 2 2 1 1 12 . Vlastnosti Pearsonova koeficientu korelace se přenášejí i na výběrový koeficient korelace. (Výběrový koeficient korelace není nestranným odhadem skutečného koeficientu korelace, je odhadem vychýleným. Vychýlení je zanedbatekně malé pro rozsahy výběrů nad 30.) Pearsonův koeficient korelace dvourozměrného normálního rozložení Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou ( ) ( )               σ µ− + σ µ− σ µ− ρ−      σ µ− ρ− − ρ−σπσ =ϕ 2 2 2 2 2 1 1 2 1 1 2 yyx 2 x 12 1 2 21 e 12 1 y,x , přičemž µ1 = E(X), µ2 = E(Y), σ1 2 = D(X), σ2 2 = D(Y), ρ = R(X,Y). Marginální hustoty jsou: ( ) ( ) ( ) 2 1 2 1 2 x 1 1 e 2 1 ...dyy,xx σ µ− −∞ ∞− πσ ==ϕ=ϕ ∫ , ( ) ( ) ( ) 2 2 2 2 2 y 2 2 e 2 1 ...dxy,xy σ µ− −∞ ∞− πσ ==ϕ=ϕ ∫ . Je-li ρ = 0, pak pro ( ) ( ) ( ) ( )yxy,x:Ry,x 21 2 ϕϕ=ϕ∈∀ , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí! Upozornění: nadále budeme předpokládat, že (X1, Y1), ..., (Xn, Yn) je náhodný výběr rozsahu n z dvourozměrného normálního rozložení N2                 σσρσ σρσσ       µ µ 2 221 21 2 1 2 1 , . Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu: tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy. Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100α% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. Testování hypotézy o nezávislosti Na hladině významnosti α testujeme H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti - oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0) - levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0) - pravostranné alternativě H1: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0). Testová statistika má tvar: 2 12 12 0 R1 2nR T − − = . Platí-li nulová hypotéza, pak T0 ~ t(n-2). Kritický obor pro test H0 proti - oboustranné alternativě: ( )( ( ) )∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1 , - levostranné alternativě: ( )( 2nt,W 1 −−∞−= α− , - pravostranné alternativě: ( ) )∞−= α− ,2ntW 1 . H0 zamítáme na hladině významnosti α, když Wt0 ∈ . Příklad: Testování hypotézy o nezávislosti V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y. Řešení: Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu. 10 15 20 25 30 x 50 60 70 80 90 100 110 120 y Vidíme, že předpoklad dvourozměrné normality je oprávněný. Vypočteme realizace výběrových průměrů: m1 = ∑= n 1i ix n 1 = 18,267, m2 = ∑= n 1i iy n 1 = 83,6, výběrových rozptylů: s1 2 = ( )∑= − − n 1i 2 1i mx 1n 1 = 5,6381, s2 2 = ( )∑= − − n 1i 2 2i my 1n 1 = 121,4, výběrové kovariance: s12 = ( )( )∑= −− − n 1i 2i1i mymx 1n 1 = 24,2571, výběrového koeficientu korelace: 21 12 12 ss s r = = 0,927. Realizace testové statistiky: 2 12 12 0 r1 2nr t − − = = 8,912, kritický obor ( )( ( ) ) ( )∞∪−∞−=∞∪−∞−= ,012,3012,3,,13t13t,W 995,0995,0 . Protože Wt0 ∈ , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1% jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu – viz výše. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK – na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet. Korelace (smeny a vyrobky.sta) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X X X Y Y X Y Y 18,26667 2,37447 18,26667 2,37447 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 18,26667 2,37447 83,60000 11,01817 0,927180 0,859663 8,923795 0,000001 15 5,010135 4,302365 1,562407 0,199812 83,60000 11,01817 18,26667 2,37447 0,927180 0,859663 8,923795 0,000001 15 1,562407 0,199812 5,010135 4,302365 83,60000 11,01817 83,60000 11,01817 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající phodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y. Interval spolehlivosti pro korelační koeficient Náhodná veličina 12 12 R1 R1 ln 2 1 Z − + = má přibližně normální rozložení se střední hodnotou ( ) ( )1n21 1 ln 2 1 ZE − ρ + ρ− ρ+ = (2. sčítanec lze při větším n zanedbat) a rozptylem ( ) 3n 1 ZD − = . Standardizací veličiny Z dostaneme veličinu )Z(D )Z(EZ U − = , která má asymptoticky rozložení N(0,1). Tudíž 100(1-α)% asymptotický interval spolehlivosti pro ρ− ρ+ 1 1 ln 2 1 bude mít meze 3n u Z 2/1 − ± α− . Interval spolehlivosti pro ρ pak dostaneme zpětnou transformací. Poznámka: Jelikož Z = arctgh R12, dostáváme R12 = tgh Z a meze intervalu spolehlivosti pro ρ můžeme psát ve tvaru       − ± α− 3n u Ztgh 2/1 , přičemž xx xx ee ee xtgh − − + − = . Příklad: Učitel tělocviku zjišťoval, zda existuje vztah mezi počtem shybů (veličina X) a počtem kliků (veličina Y) u 15 náhodně vybraných chlapců: Číslo chlapce1 2 3 45 6 78 9 101112131415 Počet shybů 1 3 2 05 6 14 3 5 6 2 1 1 8 Počet kliků 1015150402573130354110149 64 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 15 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. -6 -4 -2 0 2 4 6 8 10 12 X -20 0 20 40 60 Y Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Testujeme H0: ρ = 0 proti H1: ρ ≠ 0. Vypočítáme R12 = 0,9276, tedy mezi počtem shybů a počtem kliků existuje silná přímá lineární závislost. Testová statistika: T = 8,9511, kvantil t0,975(13) = 2,1604, kritický obor ( )∞∪−∞−= ,1604,21604,2,W . Jelikož WT ∈ , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Vypočítáme 6409,1 9276,01 9276,01 ln 2 1 R1 R1 ln 2 1 Z 12 12 = − + = − + = . Meze 95% asymptotického intervalu spolehlivosti pro ρ jsou       ± 12 96,1 6409,1tgh , tedy 0,7914 < ρ < 0,9761 s pravděpodobností přibližně 0,95. Výpočet pomocí systému STATISTICA: Ve STATISTICE vypočteme meze 100(1-α)% asymptotického intervalu spolehlivosti pro koeficient korelace ρ tak, že otevřeme nový datový soubor se dvěma proměnnými (pojmenujeme je DM a HM) a jedním případem. Do Dlouhého jména proměnné DM zapíšeme příkaz = TanH(0,5*log((1+0,9276)/(1-0,9276))-VNormal(0,975;0;1)/sqrt(12)) a do Dlouhého jména proměnné HM zapíšeme příkaz = TanH(0,5*log((1+0,9276)/(1-0,9276))+VNormal(0,975;0;1)/sqrt(12)) 1 DM 2 HM 1 0,791382 0,976062 95% asymptotický interval spolehlivosti pro koeficient korelace ρ má tedy meze 07914 a 0,9761. (Protože nepokrývá hodnotu 0, zamítáme hypotézu o nezávislosti veličin X, Y na asymptotické hladině významnosti 0,05.) S rizkem nejvýše 5 %jsme tedy prokázali, že mezi počtem shybů a počtem kliků existuje lineární závislost. Využití modulu „Analýza síly testu“ v systému STATISTICA Testujeme-li na hladině významnosti α nulovou hypotézu (v našem případě H0: ρ = 0) proti alternativní hypotéze (v našem případě H1: ρ ≠ 0), můžeme se dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Pravděpodobnost chyby 1. druhu se značí α a nazývá se hladina významnosti testu. Pravděpodobnost chyby 2. druhu se značí β. Číslo 1 – β se nazývá síla testu a vyjadřuje pravděpodobnost, s jakou test vypoví, že H0 neplatí. Modul „Analýza síly testu“ nám umožní vyřešit tři úkoly: a) pro daný korelační koeficient ρ a danou hladinu významnosti α stanovit, jaký musí být rozsah výběru n, aby síla testu byla aspoň rovna danému číslu 1 – β b) pro dané ρ, α, n vypočítat sílu testu 1 – β c) pro daný výběrový koeficient korelace r a dané α určit meze 100(1- α)% intervalu spolehlivosti pro ρ. Ad a) Stanovení rozsahu výběru Předpokládáme, že náhodný výběr (X1, Y1), ..., (Xn, Yn) pochází z dvourozměrného normálního rozložení rozložení s koeficientem korelace ρ = 0,3. Jak velký musí být rozsah tohoto výběru, aby test H0: ρ = 0 proti H1: ρ ≠ 0 měl sílu 0,8, je-li hladina významnosti α = 0,05? Statistiky – Analýza síly testu – Výpočet velikosti vzorku – Jedna korelace, t-test – OK – Ró: 0,3, Alfa: 0,05, Požadovaná síla: 0,8 – OK – Vypočítat N. Zjistíme, že minimální velikost výběru je 29. Ad b) Výpočet síly testu Předpokládáme, že náhodný výběr (X1, Y1), ..., (X25, Y25) pochází z dvourozměrného normálního rozložení s koeficientem korelace ρ, který je neznámý. Výběrový koeficient korelace nabyl hodnoty -0,56. Na hladině významnosti α = 0,05 testujeme H0: ρ = 0 proti H1: ρ ≠ 0. Jaká je síla testu? Statistiky – Analýza síly testu – Výpočet síly testu - Jedna korelace, t-test – OK – Ró: -0,56, N: 25, Alfa: 0,05 – OK – Výpočetní algoritmus: zaškrtneme t-statistika – Vypočítat sílu. Zjistíme, že síla testu je 0,5282. Ad c) Nalezení intervalu spolehlivosti Předpokládáme, že náhodný výběr (X1, Y1), ..., (X25, Y25) pochází z dvourozměrného normálního rozložení s koeficientem korelace ρ, který je neznámý. Výběrový koeficient korelace nabyl hodnoty -0,56. Najděte 95% interval spolehlivosti pro ρ. Statistiky – Analýza síly testu – Odhad intervalu - Jedna korelace, t-test – OK – Pozorované R: -0,56, N: 25, Spolehlivost: 0,95 – Výpočetní algoritmus: zaškrtneme Fisherova Z (původní) – Vypočítat. Zjistíme, že Dolní mez = -0,7821, Horní mez = -0,2117. Mnohonásobná a parciální korelace Varianční, kovarianční a korelační matice Nechť X = (X1, …, Xp)’ je náhodný vektor. Označme µi = E(Xi) střední hodnotu náhodné veličiny Xi, σi 2 = D(Xi) rozptyl náhodné veličiny Xi, σij = C(Xi, Xj) kovarianci náhodných veličin Xi, Xj (přitom σij = σi 2 ) ρij = R(Xi, Xj) koeficient korelace náhodných veličin Xi, Xj Vektor E(X) = (µ1, …, µp)’ se nazývá vektor středních hodnot náhodného vektoru X. Čtvercová matice řádu p var(X) = (σij)i,j=1, …, p se nazývá varianční matice náhodného vektoru X. Čtvercová matice řádu p cor(X) = (ρij) i,j=1, …, p se nazývá korelační matice náhodného vektoru X. Je zřejmé, že varianční matice a korelační matice jsou symetrické. Nechť X = (X1, …, Xp)’ a Y = (Y1, …, Yq)’ jsou náhodné vektory. Matice typu pxq cov(X,Y) = (C(Xi, Yj)) se nazývá kovarianční matice vektorů X, Y. Matice typu pxq cor(X,Y) = (ρ(Xi, Yj)) se nazývá korelační matice vektorů X,Y. Odhady vektoru středních hodnot, varianční a korelační matice jednoho náhodného vektoru X Nechť X je náhodný vektor, který má p-rozměrné rozložení s vektorem středních hodnot µ, varianční maticí var(X) a korelační maticí cor(X). Nechť je dán náhodný výběr X1 = (X11, …, X1p)’, …, Xn = (Xn1, …, Xnp)’ rozsahu n z tohoto rozložení. Nestranný odhad vektoru µ je vektor výběrových průměrů M = (M1, …, Mp)’, kde ∑ = = n 1i ijj X n 1 M je výběrový průměr j-tého výběru, j = 1, …, p. Nestranný odhad matice var(X) je výběrová varianční matice S = (Sij) = ( )( )∑ = −− − n 1i ii ' 1n 1 MXMX řádu p. Vychýlený odhad matice cor(X) je výběrová korelační matice R = (Rij), kde Rij je výběrový korelační koeficient i-té a j-té složky vektoru X, tedy jjii ij ij SS S R = , i, j = 1, …, p. (Je zřejmé, že diagonální prvky matice R jsou jedničky a matice R je symet- rická.) Příklad: U 28 náhodně vybraných osob byly zjišťovány tyto údaje: Sex … 1 – muž, 2 – žena (mužů i žen bylo po 14) výška (v cm), proměnná X1 hmotnost (v kg), proměnná X2 boty (číslo bot), proměnná X3 Vypočtěte realizaci výběrové varianční matice a výběrové korelační matice. (Soubor udaje_o_lidech_1.sta) Řešení: Statistiky – Vícenásobná regrese - Proměnné Závislá X3, nezávislé X1, X2 – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance resp. Korelace. Výběrová kovarianční matice Proměnná vyska hmotnost boty vyska hmotnost boty 112,8611 161,0926 41,45370 161,0926 248,4709 61,99206 41,4537 61,9921 16,40608 Výběrová korelační matice Proměnná vyska hmotnost boty vyska hmotnost boty 1,000000 0,961979 0,963360 0,961979 1,000000 0,970948 0,963360 0,970948 1,000000 Z výběrové varianční matice plyne, že největší variabilitu má hmotnost, pak výška a nakonec číslo bot. Z výběrové korelační matice plyne, že mezi všemi třemi dvojicemi proměnných existuje velmi silná přímá lineární závislost, nejsilnější je mezi hmotností a velikostí bot. Odhady kovarianční a korelační matice dvou náhodných vektorů X, Y Nechť náhodný vektor X má p-rozměrné rozložení a nechť X1, …, Xn je náhodný výběr z tohoto rozložení. Nechť náhodný vektor Y má q-rozměrné rozložení a nechť Y1, …, Yn je náhodný výběr z tohoto rozložení. Předpokládejme, že obě rozložení mají konečné druhé momenty. Nechť cov(X, Y) je kovarianční matice těchto vektorů a cor(X, Y) je korelační matice těchto vektorů. Označme q,...,1j,Y n 1 M,p,...,1j,X n 1 M n 1i ijYj n 1i ijXj ==== ∑∑ == , MX = (MX1, …, MXp)’, MY = (MY1, …, MYq)’. Nestranným odhadem kovarianční matice cov(X, Y) vektorů X, Y je výběrová kovarianční matice vektorů X, Y definovaná vzorcem SXY = (Sij) = ( )( )∑= −− − n 1i ii ' 1n 1 YX MYMX , i = 1, …, p, j = 1, …, q. Vychýleným odhadem korelační matice cor(X, Y) vektorů X, Y je výběrová korelační matice vektorů X, Y definovaná vzorcem RXY = (Rij), kde Rij je výběrový korelační koeficient i-té a j-té složky vektorů X, Y, i = 1, …, p, j = 1, …, q. Příklad: Nechť vektor X = (X1, X2, X3)’ obsahuje údaje o výšce, hmotnosti a číslu bot mužů, vektor Y =(Y1, Y2)’ obsahuje údaje výšce a hmotnosti žen. Vypočtěte realizace výběrové kovarianční a výběrové korelační matice vektorů X, Y. (Soubor udaje_o_lidech_2.sta) Řešení: Statistiky – Pokročilé lineární/nelineární modely – Obecné lineární modely – OK – Závislé proměnné: Vyska_z, Hmotnost_z – Spojité nezávislé proměnné: Vyska_m, Hmotnost_m, Boty_m – OK – na záložce Možnosti zaškrtneme Bez abs. členu – OK – na záložce Matice vybereme Kovariance resp. Korelace. Ve vzniklých tabulkách ponecháme pouze poslední dvě proměnné a první tři případy. Výběrová kovarianční matice Efekt Sloup.4 Vyska_z Sloup.5 Hmotnost_z Vyska_m Hmotnost_m Boty_m 10,81319 17,39560 15,70879 15,22527 4,43407 5,13736 Výběrová korelační matice Efekt Sloup.4 Vyska_z Sloup.5 Hmotnost_z Vyska_m Hmotnost_m Boty_m 0,467318 0,767160 0,514047 0,508409 0,560289 0,662427 Koeficient mnohonásobné korelace a výběrový koeficient mnohonásobné korelace Intenzitu lineární závislosti mezi náhodnou veličinou Y a náhodným vektorem X = (X1, …, Xp)’ měříme pomocí koeficientu mnohonásobné korelace ρY. X. Jeho druhá mocnina je dána vzorcem ρY. X 2 = cor(Y, X) cor(X)-1 cor(X, Y). Má tyto vlastnosti: a) ρY. X ≥ 0 b) ρY. X ≥ ( ) p1,...,iproX,Y i =∀ρ c) ( )1XX.YX...X.Y X,Y... 21p1 ρ≥ρ≥≥ρ d) ρY. X = 1⇔ existují konstanty β0, β1, …, βp tak, že Y = β0 + β1X1 +… + βp Xp. Nechť náhodný vektor (Y, X1, …, Xp)’ má (p+1)-rozměrné rozložení s koeficientem mnohonásobné korelace ρY. X. Nechť je dán náhodný výběr (Y1, X11, …, X1p)’, …, (Yn, Xn1, …, Xnp)’ rozsahu n z tohoto rozložení. Pak jako odhad ρY. X slouží výběrový koeficient mnohonásobné korelace rY. X, jehož druhá mocnina je dána vzorcem rY. X 2 = RYX R-1 RXY, kde RYX je výběrová korelační matice veličiny Y a vektoru X (v tomto případě se redukuje na vektor ( )p1 YXYX r,...,r ) a R je výběrová korelační matice vektoru X. Vlastnosti koeficientu mnohonásobné korelace se přenášejí i na výběrový koeficient mnohonásobné korelace. Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina X1 – v letech) a době zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje: Y 67 65 75 66 77 84 69 60 70 66 X1 43 40 49 46 41 41 48 34 32 42 X2 6 8 14 14 8 12 16 1 5 7 Vypočtěte výběrový koeficient mnohonásobné korelace ( )21 X,X,Yr popisující závislost hodinové výkonnosti dělníka na na jeho věku a době zapracovanosti. Řešení: Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2 – OK – OK. Koeficient ( )21 X,X,Yr najdeme v záhlaví výstupní tabulky pod označením R = 0,54 Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 N=10 b* Sm.chyba z b* b Sm.chyba z b t(7) p-hodn. Abs.člen X1 X2 86,74217 25,32397 3,425299 0,011056 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 0,920415 0,598452 1,35062 0,87817 1,537994 0,167937 Jeho druhá mocnina (ozn. R2) nám říká, že variabilita výkonů dělníků je z 29% vysvětlena jejich věkem a dobou zapracova- nosti. Testování hypotézy o nezávislosti veličiny Y a vektoru X Popis testu Nechť náhodný výběr (Y1, X11, …, X1p)’, …, (Yn, Xn1, …, Xnp)’ pochází z (p+1)-rozměrného normálního rozložení, které má koeficient mnohonásobné korelace ρY. X. Musí platit n > p+1. Testujeme hypotézu H0: ρY. X = 0 proti H1: ρY. X ≠ 0. Vzhledem k tomu, že se jedná o výběr z (p+1)-rozměrného normálního rozložení, testujeme, zda existuje závislost mezi veličinou Y a vektorem X. (Je-li ρY. X = 0, pak z vlastnosti (b) plyne, že ρ(Y,Xi) = 0 pro všechna i = 1, …, p, tudíž náhodné veličiny Y a Xi jsou stochasticky nezávislé pro všechna i = 1, …, p.) Testová statistika 2 .Y 2 .Y r1 r p 1pn F X X − ⋅ −− = se řídí rozložením F(p, n-p-1), pokud H0 platí. Kritický obor: ( ) )∞−−= α− ,1pn,pFW 1 . Jestliže WF∈ , H0 zamítáme na hladině významnosti α. Příklad Předpokládáme, že údaje o výkonnosti 10 náhodně vybraných dělníků, jejich věku a době zapracovanosti představují číselné realizace náhodného výběru rozsahu 10 ze třírozměrného normálního rozložení. Na hladině významnosti 0,05 testujte hypotézu, že výkon dělníka nezávisí na jeho věku a době zapracovanosti. Řešení: Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2 – OK – OK. Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 N=10 b* Sm.chyba z b* b Sm.chyba z b t(7) p-hodn. Abs.člen X1 X2 86,74217 25,32397 3,425299 0,011056 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 0,920415 0,598452 1,35062 0,87817 1,537994 0,167937 Hodnota testové statistiky pro test nevýznamnosti koeficientu mnohonásobné korelace ( )21 X,X,Yρ je 1,4411, počet stupňů volnosti čitatele je 2, jmenovatele 7, odpovídající p-hodnota je 0,2991, tedy na hladině významnosti 0,05 nezamítáme hypotézu, že výkon dělníka není závislý na jeho věku a době zapracovanosti. Koeficient parciální korelace Nechť Y, Z jsou náhodné veličiny a X = (X1, …, Xp)’ je náhodný vektor. Korelační koeficient ρ(Y,Z) udává míru těsnosti lineárního vztahu mezi veličinami Y a Z. Ta však může být ovlivněna i tím, že mezi veličinami X1, …, Xp existují veličiny, které silně korelují jak s Y, tak se Z. Zajímá nás proto, jaká je „čistá“ korelace mezi Y a Z, když se eliminuje vliv náhodného vektoru X. Pokud se omezíme na lineární vztahy, můžeme vliv vektoru X na veličinu Y popsat lineární regresní funkcí Y ) = α + β’X, kde β = var(X)-1 cov(X,Y), α = E(Y) - β’E(X). Tu část veličiny Y, kterou vektor X nevysvětlí, si můžeme představit jako reziduum Y - Y ) . Analogicky pro veličinu Z dostáváme Z ) = γ + δ’X, kde δ = var(X)-1 cov(X,Z), γ = E(Z) - δ’E(X), tudíž reziduum Z - Z ) chápeme jako tu část veličiny Z, kterou vektor X nevysvětlí. Korelační koeficient mezi rezidui Y - Y ) a Z - Z ) se nazývá parciální korelační koeficient mezi náhodnými veličinami Y a Z při pevně daném vektoru X a značí se X.Z,Yρ . Tedy X.Z,Yρ = ρ(Y - Y ) , Z - Z ) ). Počítá se podle vzorce ( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] ( ) ( ) ( )[ ]Z,covcor,Zcov1Y,covcor,Ycov1 Z,covcor,YcovZ,Y 11 1 .Z,Y XXXXXX XXX X −− − −− −ρ =ρ . Nechť náhodný vektor (Y, Z, X1, …, Xp)’ pochází z (p+2)-rozměrného rozložení, které má parciální korelační koeficient X.Z,Yρ . Nechť je dán náhodný výběr (Y1, Z1, X11, …, X1p)’, …, (Yn, Zn, Xn1, …, Xnp)’ rozsahu n z tohoto rozložení. Musí platit n > p+2. Jako odhad X.Z,Y ρ slouží výběrový parciální korelační koeficient X.Z,Yr : [ ][ ]Z 1 ZY 1 Y Z 1 YYZ .Z,Y 11 r r XXXXXXXX XXXX X SRSSRS SRS −− − −− − = Testování hypotézy o nezávislosti veličin Y a Z při eliminaci vlivu vektoru X Popis testu Budeme předpokládat, že uvedený náhodný výběr pochází z (p+2)-rozměrného normálního roz- ložení. Testujeme hypotézu H0: ρy, z . x = 0 proti H1: ρy, z . x ≠ 0. Vzhledem k tomu, že se jedná o výběr z normálního rozložení, testujeme, zda existuje závislost mezi Y a Z při eliminaci vlivu X. Testová statistika 2 .Z,Y .Z,Y 0 r1 2pnr T X X − −− = se řídí rozložením t(n-p-2), pokud H0 platí. Kritický obor: ( )( ( ) )∞−−∪−−∞−= α−α− ,2pnt2pnt,W 2/12/1 . Jestliže WT0 ∈ , H0 zamítáme na hladině významnosti α. Příklad Pro data z příkladu o výkonnosti dělníků vypočtěte výběrové parciální korelační koeficienty 1221 X.X,YX.X,Y r,r , interpretujte je, porovnejte je s obyčejnými výběrovými korelačními koeficienty 21 YXYX r,r a pro α = 0,05 otestujte významnost uvedených parciálních korelačních koeficientů. Výpočet pomocí systému STATISTICA Nejprve vypočteme koeficient korelace mezi výkonem a věkem. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 2 seznamy – 1. seznam Y, 2. seznam X1, X2 – Výpočet. Proměnná X1 Y 0,2287 Dále vypočteme parciální korelační koeficient mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti a otestujeme jeho významnost. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – na záložce Možnosti zaškrtneme Zobrazit r, úrovně p, počty N, na záložce Detaily zvolíme Parciální korelace – 1. seznam proměnných Y, X1, druhý seznam proměnných X2 – OK Proměnná Y X1 Y X1 1,0000 -,3286 p= --- p=,388 -,3286 1,0000 p=,388 p= --- Korelační koeficient mezi výkonem a věkem vyšel 0,2287, tedy s rostoucím věkem roste výkon. Parciální korelační koeficient mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti vyšel -0,3286, tedy u dělníků se stejnou dobou zapracovanosti klesá s rostoucím věkem výkon. Odpovídající p-hodnota je 0,388, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti 21 X.X,Yρ . Nyní vypočteme koeficient korelace mezi výkonem a dobou zapracovanosti: Proměnná X2 Y 0,4538 Dále vypočteme parciální korelační koeficient mezi výkonem a dobou zapracovanosti při vyloučení vlivu věku pracovníka a otestujeme jeho významnost. Proměnná Y X2 Y X2 1,0000 ,5026 p= --- p=,168 ,5026 1,0000 p=,168 p= --- Korelační koeficient mezi výkonem a dobou zapracovanosti vyšel 0,4538, tedy čím delší doba zapracovanosti, tím lepší výkon dělník podává. Parciální korelační koeficient mezi výkonem a dobou zapracovanosti při vyloučení vlivu věku vyšel 0,5026, tedy u stejně starých dělníků je poněkud silnější přímá lineární vazba mezi výkonem a dobou zapracovanosti. Odpovídající p-hodnota je 0,168, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti 12 X.X,Yρ .