Osnova přednášky Korelační analýza 1. Jednoduchá korelace 1.1. Pearsonův koeficient korelace a jeho vlastnosti 1.2. Výběrový koeficient korelace 1.3. Test hypotézy o nezávislosti 1.4. Příklad 1.5. Interval spolehlivosti pro koeficient korelace 1.6. Příklad 1.7. Porovnání koeficientu korelace s danou konstantou 1.8. Porovnání dvou koeficientů korelace 2. Mnohonásobná korelace 2.1. Varianční, korelační a kovarianční matice 2.2. Odhady pro jeden náhodný vektor 2.3. Příklad 2.4. Odhady pro dva náhodné vektory 2.5. Příklad 2.6. Koeficient mnohonásobné korelace a jeho vlastnosti 2.7. Výběrový koeficient mnohonásobné korelace 2.8. Test hypotézy o nevýznamnosti koeficientu mnohonásobné korelace 2.9. Příklad 3. Parciální korelace 3.1. Koeficient parciální korelace 3.2. Výběrový koeficient parciální korelace 3.3. Test hypotézy o nevýznamnosti koeficientu parciální korelace 3.4. Příklad 1. Jednoduchá korelace 1.1. Pearsonův koeficient korelace Definice: Nechť X, Y jsou náhodné veličiny se středními hodnotami E(X), E(Y) a rozptyly D(X), D(Y). Číslo ( ) ( ) jinak0 0)Y(D)X(Dpro )Y(D)X(D YX,C )Y(D )Y(EY )X(D )X(EX E Y,XR      >=         − ⋅ − = se nazývá Pearsonův koeficient korelace. Vlastnosti Pearsonova koeficientu korelace a) R(a1, Y) = R(X, a2) = R(a1, a2) = 0 b) R(a1 + b1X, a2 + b2Y) = sgn(b1b2) R(X, Y) = ( ) ( )   <− > 0bbproY,XR 0bbproY,XR 21 21 c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak d) R(X, Y) = R(Y, X) e) 1)Y,X(R ≤ a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.) Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Definice nekorelovanosti Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) Pearsonův koeficient korelace dvourozměrného normálního rozložení Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou ( ) ( )               σ µ− + σ µ− ⋅ σ µ− ρ−      σ µ− ρ− − ρ−σπσ =ϕ 2 2 2 2 2 1 1 2 1 1 2 yyx 2 x 12 1 2 21 e 12 1 y,x , přičemž µ1 = E(X), µ2 = E(Y), σ1 2 = D(X), σ2 2 = D(Y), ρ = R(X,Y). Marginální hustoty jsou: ( ) ( ) ( ) 2 1 2 1 2 x 1 1 e 2 1 ...dyy,xx σ µ− −∞ ∞− πσ ==ϕ=ϕ ∫ , ( ) ( ) ( ) 2 2 2 2 2 y 2 2 e 2 1 ...dxy,xy σ µ− −∞ ∞− πσ ==ϕ=ϕ ∫ . Je-li ρ = 0, pak pro ( ) ( ) ( ) ( )yxy,x:Ry,x 21 2 ϕϕ=ϕ∈∀ , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí! 1.2. Výběrový koeficient korelace Nechť (X1, Y1), ..., (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry ∑ = = n 1i i1 X n 1 M , ∑ = = n 1i i2 Y n 1 M , výběrové rozptyly ( )∑ = − − = n 1i 2 1i 2 1 MX 1n 1 S , ( )∑ = − − = n 1i 2 2i 2 2 MY 1n 1 S , výběrovou kovarianci ( )( )∑ = −− − = n 1i 2i1i12 MYMX 1n 1 S a s jejich pomocí zavedeme výběrový koeficient korelace      >= − ⋅ − −= ∑= jinak0 0SSpro SS S S MY S MX 1n 1 R 21 21 12 n 1i 2 2 1 1 12 . Vlastnosti Pearsonova koeficientu korelace se přenášejí i na výběrový koeficient korelace. (Výběrový koeficient korelace není nestranným odhadem skutečného koeficientu korelace, je odhadem vychýleným. Vychýlení je zanedbatelně malé pro rozsahy výběrů nad 30.) Upozornění: nadále budeme předpokládat, že (X1, Y1), ..., (Xn, Yn) je náhodný výběr rozsahu n z dvourozměrného normálního rozložení N2                 σσρσ σρσσ       µ µ 2 221 21 2 1 2 1 , . Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu: tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy. Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100α% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. 1.3. Testování hypotézy o nezávislosti Na hladině významnosti α testujeme H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti - oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0) - levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0) - pravostranné alternativě H1: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0). Testová statistika má tvar: 2 12 12 0 R1 2nR T − − = . Platí-li nulová hypotéza, pak T0 ~ t(n-2). Kritický obor pro test H0 proti - oboustranné alternativě: ( )( ( ) )∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1 , - levostranné alternativě: ( )( 2nt,W 1 −−∞−= α− , - pravostranné alternativě: ( ) )∞−= α− ,2ntW 1 . H0 zamítáme na hladině významnosti α, když Wt0 ∈ . 1.4. Příklad V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y. Řešení: Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu. 10 15 20 25 30 x 50 60 70 80 90 100 110 120 y Vidíme, že předpoklad dvourozměrné normality je oprávněný. Vypočteme realizace výběrových průměrů: m1 = ∑= n 1i ix n 1 = 18,267, m2 = ∑= n 1i iy n 1 = 83,6, výběrových rozptylů: s1 2 = ( )∑= − − n 1i 2 1i mx 1n 1 = 5,6381, s2 2 = ( )∑= − − n 1i 2 2i my 1n 1 = 121,4, výběrové kovariance: s12 = ( )( )∑= −− − n 1i 2i1i mymx 1n 1 = 24,2571, výběrového koeficientu korelace: 21 12 12 ss s r = = 0,927. Realizace testové statistiky: 2 12 12 0 r1 2nr t − − = = 8,912, kritický obor ( )( ( ) ) ( )∞∪−∞−=∞∪−∞−= ,012,3012,3,,13t13t,W 995,0995,0 . Protože Wt0 ∈ , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1% jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu – viz výše. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 2 seznamy (obd. matice) – X, Y – OK – na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet. Korelace (smeny a vyrobky.sta) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X Y 18,26667 2,37447 83,60000 11,01817 0,927180 0,859663 8,923795 0,000001 15 5,010135 4,302365 1,562407 0,199812 Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající phodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y. 1.5. Interval spolehlivosti pro koeficient korelace Náhodná veličina 12 12 R1 R1 ln 2 1 Z − + = (tzv. Fisherova Z-transformace koeficientu korelace) má přibližně normální rozložení se střední hodnotou ( ) ( )1n21 1 ln 2 1 ZE − ρ + ρ− ρ+ = (2. sčítanec lze při větším n zanedbat) a rozptylem ( ) 3n 1 ZD − = . Standardizací veličiny Z dostaneme veličinu )Z(D )Z(EZ U − = , která má asymptoticky rozložení N(0,1). Tudíž 100(1-α)% asymptotický interval spolehlivosti pro ρ− ρ+ 1 1 ln 2 1 bude mít meze 3n u Z 2/1 − ± α− . Interval spolehlivosti pro ρ pak dostaneme zpětnou transformací. Poznámka: Jelikož Z = arctgh R12, dostáváme R12 = tgh Z a meze intervalu spolehlivosti pro ρ můžeme psát ve tvaru       − ± α− 3n u Ztgh 2/1 , přičemž xx xx ee ee xtgh − − + − = . 1.6. Příklad: Učitel tělocviku zjišťoval, zda existuje vztah mezi počtem shybů (veličina X) a počtem kliků (veličina Y) u 15 náhodně vybraných chlapců: Číslo chlapce1 2 3 45 6 78 9 101112131415 Počet shybů 1 3 2 05 6 14 3 5 6 2 1 1 8 Počet kliků 1015150402573130354110149 64 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 15 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. -6 -4 -2 0 2 4 6 8 10 12 X -20 0 20 40 60 Y Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Testujeme H0: ρ = 0 proti H1: ρ ≠ 0. Vypočítáme R12 = 0,9276, tedy mezi počtem shybů a počtem kliků existuje silná přímá lineární závislost. Testová statistika: T = 8,9511, kvantil t0,975(13) = 2,1604, kritický obor ( )∞∪−∞−= ,1604,21604,2,W . Jelikož WT ∈ , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Vypočítáme 6409,1 9276,01 9276,01 ln 2 1 R1 R1 ln 2 1 Z 12 12 = − + = − + = . Meze 95% asymptotického intervalu spolehlivosti pro ρ jsou       ± 12 96,1 6409,1tgh , tedy 0,7914 < ρ < 0,9761 s pravděpodobností přibližně 0,95. Výpočet pomocí systému STATISTICA: Statistiky – Analýza síly testu – Odhad intervalu - Jedna korelace, t-test – OK – Pozorované R: 0,9276, N: 21, Spolehlivost: 0,95 – Výpočetní algoritmus: zaškrtneme Fisherovo Z (původní) – Vypočítat. Odhad intervalu Jedna korelace, t-test Hodnota Pozorovaný korel. koef. R Korelace dle nulové hypotézy (Ró0) Oboustranná p-hodnota Velikost vz. ve skup. (N) Interval spolehlivosti Meze spolehlivosti (Fisher. Z původní): Ró: Dolní mez Horní mez 0,9276 0,0000 0,0000 15,0000 0,9500 0,7914 0,9761 95% asymptotický interval spolehlivosti pro koeficient korelace ρ má tedy meze 0,7914 a 0,9761. (Protože nepokrývá hodnotu 0, zamítáme hypotézu o nezávislosti veličin X, Y na asymptotické hladině významnosti 0,05.) 1.7. Porovnání koeficientu korelace s danou konstantou Nechť c je reálná konstanta. Testujeme H0: ρ = c proti H1: ρ ≠ c. (Tento test se provádí např. tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.) Test je založen na statis- tice ( ) 3n 1n2 c c1 c1 ln 2 1 ZU −      − − − + −= , která má za platnosti H0 pro n ≥ 10 asymptoticky rozložení N(0,1), přičemž 12 12 R1 R1 ln 2 1 Z − + = je tzv. Fisherova Z-transformace. Kritický obor pro test H0 proti oboustranné alternativě tedy je ( )∞∪−∞−= α−α− ,uu,W 2/12/1 . H0 zamítáme na asymptotické hladině významnosti α, když WU ∈ . Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0: ρ = 0,9 proti H1: ρ ≠ 0,9. Řešení: 2562,1 85,01 85,01 ln 2 1 Z = − + = , ( ) 2976,53600 16002 9,0 9,01 9,01 ln 2 1 2562,1U −=−      − − − + −= , u0,975 = 1,96, ( )∞∪−∞−= ,96,196,1,W . Protože WU∈ , H0 zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (pouze přibližný): Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,85, do políčka N1 napíšeme 600, do políčka r2 napíšeme 0,9, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím statistiky U, můžeme vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru – Korelace, kde zadáme realizaci výběrového koeficientu korelace, rozsah výběru. Zajímá nás Fisher z. 1.8. Porovnání dvou koeficientů korelace Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n* z dvourozměrných normálních rozložení s korelačními koeficienty ρ a ρ* . Testujeme H0: ρ = ρ* proti H1: ρ ≠ ρ* . Označme R12 výběrový korelační koeficient 1. výběru a R12 * výběrový korelační koeficient 2. výběru. Položme 12 12 R1 R1 ln 2 1 Z − + = a * 12 * 12* R1 R1 ln 2 1 Z − + = . Platí-li H0, pak testová statistika 3n 1 3n 1 * * ZZ U −− + − = má asymptoticky rozložení N(0,1). Kritický obor pro test H0 proti oboustranné alternativě tedy je ( )∞∪−∞−= α−α− ,uu,W 2/12/1 . H0 zamítáme na asymptotické hladině významnosti α, když WU ∈ . Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový korelační koeficient mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty v obou skupinách se neliší. Řešení: 3884,0 37,01 37,01 ln 2 1 Z,7753,0 65,01 65,01 ln 2 1 Z * = − + == − + = , 9242,2 3884,07753,0 U 3142 1 3100 1 = + − = −− , u0,975 = 1,96, ( )∞∪−∞−= ,96,196,1,W . Protože WU∈ , H0 zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,65, do políčka N1 napíšeme 100, do políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu 0,0038, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. 2. Mnohonásobná korelace 2.1. Varianční, korelační a kovarianční matice Nechť X = (X1, …, Xp)’ je náhodný vektor. Označme µi = E(Xi) střední hodnotu náhodné veličiny Xi, σi 2 = D(Xi) rozptyl náhodné veličiny Xi, σij = C(Xi, Xj) kovarianci náhodných veličin Xi, Xj (přitom σii = σi 2 ) ρij = R(Xi, Xj) koeficient korelace náhodných veličin Xi, Xj Vektor E(X) = (µ1, …, µp)’ se nazývá vektor středních hodnot náhodného vektoru X. Čtvercová matice řádu p var(X) = (σij)i,j=1, …, p se nazývá varianční matice náhodného vektoru X. Čtvercová matice řádu p cor(X) = (ρij) i,j=1, …, p se nazývá korelační matice náhodného vektoru X. Je zřejmé, že varianční matice a korelační matice jsou symetrické. Nechť X = (X1, …, Xp)’ a Y = (Y1, …, Yq)’ jsou náhodné vektory. Matice typu pxq cov(X,Y) = (C(Xi, Yj)) se nazývá kovarianční matice vektorů X, Y. Matice typu pxq cor(X,Y) = (ρ(Xi, Yj)) se nazývá korelační matice vektorů X,Y. 2.2. Odhady pro jeden náhodný vektor Nechť X je náhodný vektor, který má p-rozměrné rozložení s vektorem středních hodnot µ, varianční maticí var(X) a korelační maticí cor(X). Nechť je dán náhodný výběr X1 = (X11, …, X1p)’, …, Xn = (Xn1, …, Xnp)’ rozsahu n z tohoto rozložení. Nestranný odhad vektoru µ je vektor výběrových průměrů M = (M1, …, Mp)’, kde ∑ = = n 1i ijj X n 1 M je výběrový průměr j-tého výběru, j = 1, …, p. Nestranný odhad matice var(X) je výběrová varianční matice S = (Sij) = ( )( )∑ = −− − n 1i ii ' 1n 1 MXMX řádu p. Vychýlený odhad matice cor(X) je výběrová korelační matice R = (Rij), kde Rij je výběrový korelační koeficient i-té a j-té složky vektoru X, tedy jjii ij ij SS S R = , i, j = 1, …, p. (Je zřejmé, že diagonální prvky matice R jsou jedničky a matice R je symet- rická.) 2.3. Příklad: U 28 náhodně vybraných osob byly zjišťovány tyto údaje: Sex … 1 – muž, 2 – žena (mužů i žen bylo po 14) výška (v cm), hmotnost (v kg), boty (číslo bot). Vypočtěte realizaci výběrové varianční matice a výběrové korelační matice. (Soubor udaje_o_lidech_1.sta) Řešení: Statistiky – Vícenásobná regrese - Proměnné Závislá boty, nezávislé výška, hmotnost– OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance resp. Korelace. Výběrová varianční matice Proměnná vyska hmotnost boty vyska hmotnost boty 112,8611 161,0926 41,45370 161,0926 248,4709 61,99206 41,4537 61,9921 16,40608 Výběrová korelační matice Proměnná vyska hmotnost boty vyska hmotnost boty 1,000000 0,961979 0,963360 0,961979 1,000000 0,970948 0,963360 0,970948 1,000000 Z výběrové varianční matice plyne, že největší variabilitu má hmotnost, pak výška a nakonec číslo bot. Z výběrové korelační matice plyne, že mezi všemi třemi dvojicemi proměnných existuje velmi silná přímá lineární závislost, nejsilnější je mezi hmotností a velikostí bot. Upozornění: Pro výpočet těchto matic lze použít i modul Pokročilé lineární/nelineární modely – viz 2.5. 2.4. Odhady pro dva náhodné vektory Nechť náhodný vektor X má p-rozměrné rozložení a nechť X1, …, Xn je náhodný výběr z tohoto rozložení. Nechť náhodný vektor Y má q-rozměrné rozložení a nechť Y1, …, Yn je náhodný výběr z tohoto rozložení. Předpokládejme, že obě rozložení mají konečné druhé momenty. Nechť cov(X, Y) je kovarianční matice těchto vektorů a cor(X, Y) je korelační matice těchto vektorů. Označme q,...,1j,Y n 1 M,p,...,1j,X n 1 M n 1i ijYj n 1i ijXj ==== ∑∑ == , MX = (MX1, …, MXp)’, MY = (MY1, …, MYq)’. Nestranným odhadem kovarianční matice cov(X, Y) vektorů X, Y je výběrová kovarianční matice vektorů X, Y definovaná vzorcem SXY = (Sij) = ( )( )∑ = −− − n 1i ii ' 1n 1 YX MYMX , i = 1, …, p, j = 1, …, q. Vychýleným odhadem korelační matice cor(X, Y) vektorů X, Y je výběrová korelační matice vektorů X, Y definovaná vzorcem RXY = (Rij), kde Rij je výběrový korelační koeficient i-té a j-té složky vektorů X, Y, i = 1, …, p, j = 1, …, q. 2.5.Příklad: Nechť vektor X = (X1, X2, X3)’ obsahuje údaje o výšce, hmotnosti a číslu bot mužů, vektor Y =(Y1, Y2)’ obsahuje údaje výšce a hmotnosti žen. Vypočtěte realizace výběrové kovarianční a výběrové korelační matice vektorů X, Y. (Soubor udaje_o_lidech_2.sta) Řešení: Statistiky – Pokročilé lineární/nelineární modely – Obecné lineární modely – OK – Závislé proměnné: Vyska_z, Hmotnost_z – Spojité nezávislé proměnné: Vyska_m, Hmotnost_m, Boty_m – OK – na záložce Možnosti zaškrtneme Bez abs. členu – OK – na záložce Matice vybereme Kovariance resp. Korelace. Ve vzniklých tabulkách ponecháme pouze poslední dvě proměnné a první tři případy. Výběrová kovarianční matice Efekt Sloup.4 Vyska_z Sloup.5 Hmotnost_z Vyska_m Hmotnost_m Boty_m 10,81319 17,39560 15,70879 15,22527 4,43407 5,13736 Výběrová korelační matice Efekt Sloup.4 Vyska_z Sloup.5 Hmotnost_z Vyska_m Hmotnost_m Boty_m 0,467318 0,767160 0,514047 0,508409 0,560289 0,662427 Upozornění: Pro výpočet těchto matic lze použít i modul Vícenásobná regrese – viz 2.3. 2.6. Koeficient mnohonásobné korelace Intenzitu lineární závislosti mezi náhodnou veličinou Y a náhodným vektorem X = (X1, …, Xp)’ měříme pomocí koeficientu mnohonásobné korelace ρY. X. Jeho druhá mocnina je dána vzorcem ρY. X 2 = cor(Y, X) cor(X)-1 cor(X, Y). Má tyto vlastnosti: a) ρY. X ≥ 0 b) ρY. X ≥ ( ) p1,...,iproX,Y i =∀ρ c) ( )1XX.YX...X.Y X,Y... 21p1 ρ≥ρ≥≥ρ d) ρY. X = 1⇔ existují konstanty β0, β1, …, βp tak, že Y = β0 + β1X1 +… + βp Xp. 2.7. Výběrový koeficient mnohonásobné korelace Nechť náhodný vektor (Y, X1, …, Xp)’ má (p+1)-rozměrné rozložení s koeficientem mnohonásobné korelace ρY. X. Nechť je dán náhodný výběr (Y1, X11, …, X1p)’, …, (Yn, Xn1, …, Xnp)’ rozsahu n z tohoto rozložení. Pak jako odhad ρY. X slouží výběrový koeficient mnohonásobné korelace rY. X, jehož druhá mocnina je dána vzorcem rY. X 2 = RYX R-1 RXY, kde RYX je výběrová korelační matice veličiny Y a vektoru X (v tomto případě se redukuje na vektor ( )p1 YXYX r,...,r ) a R je výběrová korelační matice vektoru X. Vlastnosti koeficientu mnohonásobné korelace se přenášejí i na výběrový koeficient mnohonásobné korelace. Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina X1 – v letech) a době zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje: Y 67 65 75 66 77 84 69 60 70 66 X1 43 40 49 46 41 41 48 34 32 42 X2 6 8 14 14 8 12 16 1 5 7 Vypočtěte výběrový koeficient mnohonásobné korelace ( )21 X,X,Yr popisující závislost hodinové výkonnosti dělníka na na jeho věku a době zapracovanosti. Řešení: Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2 – OK – OK. Koeficient ( )21 X,X,Yr najdeme v záhlaví výstupní tabulky pod označením R = 0,54 Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 N=10 b* Sm.chyba z b* b Sm.chyba z b t(7) p-hodn. Abs.člen X1 X2 86,74217 25,32397 3,425299 0,011056 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 0,920415 0,598452 1,35062 0,87817 1,537994 0,167937 Jeho druhá mocnina (ozn. R2) nám říká, že variabilita výkonů dělníků je z 29% vysvětlena jejich věkem a dobou zapracova- nosti. 2.8. Test hypotézy o nevýznamnosti koeficientu mnohonásobné korelace Nechť náhodný výběr (Y1, X11, …, X1p)’, …, (Yn, Xn1, …, Xnp)’ pochází z (p+1)-rozměrného normálního rozložení, které má koeficient mnohonásobné korelace ρY. X. Musí platit n > p+1. Testujeme hypotézu H0: ρY. X = 0 proti H1: ρY. X ≠ 0. Vzhledem k tomu, že se jedná o výběr z (p+1)-rozměrného normálního rozložení, testujeme, zda existuje závislost mezi veličinou Y a vektorem X. (Je-li ρY. X = 0, pak z vlastnosti (b) plyne, že ρ(Y,Xi) = 0 pro všechna i = 1, …, p, tudíž náhodné veličiny Y a Xi jsou stochasticky nezávislé pro všechna i = 1, …, p.) Testová statistika 2 .Y 2 .Y r1 r p 1pn F X X − ⋅ −− = se řídí rozložením F(p, n-p-1), pokud H0 platí. Kritický obor: ( ) )∞−−= α− ,1pn,pFW 1 . Jestliže WF∈ , H0 zamítáme na hladině významnosti α. 2.9. Příklad Předpokládáme, že údaje o výkonnosti 10 náhodně vybraných dělníků, jejich věku a době zapracovanosti představují číselné realizace náhodného výběru rozsahu 10 ze třírozměrného normálního rozložení. Na hladině významnosti 0,05 testujte hypotézu, že výkon dělníka nezávisí na jeho věku a době zapracovanosti. Řešení: Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2 – OK – OK. Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 N=10 b* Sm.chyba z b* b Sm.chyba z b t(7) p-hodn. Abs.člen X1 X2 86,74217 25,32397 3,425299 0,011056 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 0,920415 0,598452 1,35062 0,87817 1,537994 0,167937 Hodnota testové statistiky pro test nevýznamnosti koeficientu mnohonásobné korelace ( )21 X,X,Yρ je 1,4411, počet stupňů volnosti čitatele je 2, jmenovatele 7, odpovídající p-hodnota je 0,2991, tedy na hladině významnosti 0,05 nezamítáme hypotézu, že výkon dělníka není závislý na jeho věku a době zapracovanosti. 3. Parciální korelace 3.1. Koeficient parciální korelace Nechť Y, Z jsou náhodné veličiny a X = (X1, …, Xp)’ je náhodný vektor. Koeficient korelace ρ(Y,Z) udává míru těsnosti lineárního vztahu mezi veličinami Y a Z. Ta však může být ovlivněna i tím, že mezi veličinami X1, …, Xp existují veličiny, které silně korelují jak s Y, tak se Z. Zajímá nás proto, jaká je „čistá“ korelace mezi Y a Z, když se eliminuje vliv náhodného vektoru X. Pokud se omezíme na lineární vztahy, můžeme vliv vektoru X na veličinu Y popsat lineární regresní funkcí Y ) = α + β’X, kde β = var(X)-1 cov(X,Y), α = E(Y) - β’E(X). Tu část veličiny Y, kterou vektor X nevysvětlí, si můžeme představit jako reziduum Y - Y ) . Analogicky pro veličinu Z dostáváme Z ) = γ + δ’X, kde δ = var(X)-1 cov(X,Z), γ = E(Z) - δ’E(X), tudíž reziduum Z - Z ) chápeme jako tu část veličiny Z, kterou vektor X nevysvětlí. Koeficient korelace mezi rezidui Y - Y ) a Z - Z ) se nazývá parciální korelační koeficient mezi náhodnými veličinami Y a Z při pevně daném vektoru X a značí se X.Z,Yρ . Tedy X.Z,Yρ = ρ(Y - Y ) , Z - Z ) ). Počítá se podle vzorce ( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] ( ) ( ) ( )[ ]Z,covcor,Zcov1Y,covcor,Ycov1 Z,covcor,YcovZ,Y 11 1 .Z,Y XXXXXX XXX X −− − −− −ρ =ρ . 3.2. Výběrový koeficient parciální korelace Nechť náhodný vektor (Y, Z, X1, …, Xp)’ pochází z (p+2)-rozměrného rozložení, které má parciální korelační koeficient X.Z,Y ρ . Nechť je dán náhodný výběr (Y1, Z1, X11, …, X1p)’, …, (Yn, Zn, Xn1, …, Xnp)’ rozsahu n z tohoto rozložení. Musí platit n > p+2. Jako odhad X.Z,Yρ slouží výběrový parciální korelační koeficient X.Z,Y r : [ ][ ]Z 1 ZY 1 Y Z 1 YYZ .Z,Y 11 r r XXXXXXXX XXXX X SRSSRS SRS −− − −− − = 3.3. Test hypotézy o nevýznamnosti koeficientu parciální korelace Budeme předpokládat, že uvedený náhodný výběr pochází z (p+2)-rozměrného normálního roz- ložení. Testujeme hypotézu H0: ρY, Z . X = 0 proti H1: ρY, Z . X ≠ 0. Vzhledem k tomu, že se jedná o výběr z normálního rozložení, testujeme, zda existuje závislost mezi Y a Z při eliminaci vlivu X. Testová statistika 2 .Z,Y .Z,Y 0 r1 2pnr T X X − −− = se řídí rozložením t(n-p-2), pokud H0 platí. Kritický obor: ( )( ( ) )∞−−∪−−∞−= α−α− ,2pnt2pnt,W 2/12/1 . Jestliže WT0 ∈ , H0 zamítáme na hladině významnosti α. 3.4. Příklad Pro data z příkladu o výkonnosti dělníků vypočtěte výběrové parciální korelační koeficienty 1221 X.X,YX.X,Y r,r , interpretujte je, porovnejte je s obyčejnými výběrovými korelačními koeficienty 21 YXYX r,r a pro α = 0,05 otestujte významnost uvedených parciálních korelačních koeficientů. Výpočet pomocí systému STATISTICA Nejprve vypočteme koeficient korelace mezi výkonem a věkem. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 2 seznamy – 1. seznam Y, 2. seznam X1, X2 – Výpočet. Proměnná X1 Y 0,2287 Dále vypočteme parciální korelační koeficient mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti a otestujeme jeho významnost. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – na záložce Možnosti zaškrtneme Zobrazit r, úrovně p, počty N, na záložce Detaily zvolíme Parciální korelace – 1. seznam proměnných Y, X1, druhý seznam proměnných X2 – OK Proměnná Y X1 Y X1 1,0000 -,3286 p= --- p=,388 -,3286 1,0000 p=,388 p= --- Korelační koeficient mezi výkonem a věkem vyšel 0,2287, tedy s rostoucím věkem roste výkon. Parciální korelační koeficient mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti vyšel -0,3286, tedy u dělníků se stejnou dobou zapracovanosti klesá s rostoucím věkem výkon. Odpovídající p-hodnota je 0,388, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti 21 X.X,Yρ . Nyní vypočteme koeficient korelace mezi výkonem a dobou zapracovanosti: Proměnná X2 Y 0,4538 Dále vypočteme parciální korelační koeficient mezi výkonem a dobou zapracovanosti při vyloučení vlivu věku pracovníka a otestujeme jeho významnost. Proměnná Y X2 Y X2 1,0000 ,5026 p= --- p=,168 ,5026 1,0000 p=,168 p= --- Korelační koeficient mezi výkonem a dobou zapracovanosti vyšel 0,4538, tedy čím delší doba zapracovanosti, tím lepší výkon dělník podává. Parciální korelační koeficient mezi výkonem a dobou zapracovanosti při vyloučení vlivu věku vyšel 0,5026, tedy u stejně starých dělníků je poněkud silnější přímá lineární vazba mezi výkonem a dobou zapracovanosti. Odpovídající p-hodnota je 0,168, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti 12 X.X,Yρ .