Lineární statistické modely I 1 Úvod Prednášky z predmetu Lineární statistické modely I nadväzujú na predmety Pravděpodobnost a statistika I, II a predpokladajú sa znalosti získané v týchto predmetoch. Odporúčaná literatúra k štúdiu je Anděl, J., Matematická statistika, SNTL, Praha, 1985. Rao, C., R., Lineární metódy statistické indukce a jejich aplikace, ACADEMIA, Praha, 1978. Zvára, K., Regresní analýza, ACADEMIA, Praha, 1989. Niektoré poznatky si zopakujeme (považujeme ich za "vzorce"). Majme náhodný vektor X = (X1, X2, ..., Xn) , ktorý má distribučnú funkciu FX(x1, ..., xn). Nech T : Rn R1 je merateľné zobrazenie, potom stredná hodnota E(T) = E(T(X1, ..., Xn)) = Rn T(x1, ..., xn)dFX(x1, ..., xn) = = (x1,...,xn) T(x1, ..., xn)P(x1,...,xn), v prípade diskrétneho náhodného vektora, Rn T(x1, ..., xn)fX(x1, ..., xn)dx1...dxn, v prípade spojitého náhodného vektora. Stredná hodnota E(Xi) = - xidFi(xi), disperzia (rozptyl) D(Xi) = E[(Xi - E(Xi))2 ] = (xi - E(Xi))2 dFi(xi), kovariancia cov(Xi, Xj) = E[(Xi - E(Xi))(Xj - E(Xj))] = - (xi - E(Xi))(xj - E(Xj))dFi,j(xi, xj) a korelácia cor(Xi, Xj) = (Xi, Xj) = cov(Xi, Xj) D(Xi)D(Xj) ak 0 < D(Xi) < , 0 < D(Xj) < . Len na pripomenutie Fi(xi) = lim x1 . . . xi-1 xi+1 . . . xn FX(x1, ..., xn), fi(xi) = - ... fX(x1, ..., xn)dx1...dxi-1dxi+1...dxn. 1 2 Matica náhodných veličín (náhodná matica) Zn,m je taká matica, ktorej prvky {Z}i,j = Zi,j sú náhodné veličiny. Jej stredná hodnota E(Z) je matica, ktorej (i, j)-ty prvok je E(Zi,j) (predpokladáme, že všetky stredné hodnoty existujú a sú konečné). Veta 1.1: Nech Z1, Z2 sú náhodné matice, nech existujú matice E(Z1), E(Z2) a A, B1, B2, C1, C2 sú (nenáhodné) reálne matice vhodných rozmerov. Platí E(A + B1Z1C1 + B2Z2C2) = A + B1E(Z1)C1 + B2E(Z2)C2. Dôkaz: Spravte ako cvičenie. Využite linearitu integrálu, teda platnosť vzťahov E(a + bX) = a + E(X), E( n i=1 ciXi) = n i=1 ciE(Xi) pre ľubovoľé reálne a, b, c1, ..., cn a náhodné premenné X, X1, ..., Xn (ktoré majú konečné stredné hodnoty) Q.E.D. Ak Xn,1 je náhodný vektor (X1, ..., Xn) , potom jeho stredná hodnota E(X) = (E(X1), ..., E(Xn)) (ak všetky stredné hodnoty existujú a sú konečné). Ak všetky X1, ..., Xn majú konečné disperzie, tak kovariančná matica vektora X je cov(X) = D(X1) cov(X1, X2) ... cov(X1, Xn) cov(X2, X1) D(X2) ... cov(X2, Xn) ... ... ... ... cov(Xn, X1) cov(Xn, X2) ... D(Xn) . Z Vety 1.1 ľahko dostávame Lema 1.2: E(ap,1 + Bp,nX) = a + BE(X). Veta 1.3: (Vlastnosti kovariančnej matice cov(X).) Nech X je náhodný vektor s konečnými druhými momentmi. Platí: 1. cov(X) = E[(X - E(X))(X - E(X)) ] = E(XX ) - E(X)[E(X)] , 2. (cov(X)) = cov(X), 3. cov(am,1 + Bm,nX) = Bcov(X)B , ak a, B sú nenáhodný vektor resp. nenáhodná matica, 4. cov(X) je pozitívne semidefinitná matica. Dôkaz: 1. Spravte ako cvičenie. 2. Vyplýva z vlastnosti kovariancie cov(Xi, Xj) = cov(Xj, Xi). 3. cov(a + BX) = E{(a + BX - E(a + BX))(a + BX - E(a + BX)) } = = E B(X - E(X)(X - E(X) B = Bcov(X)B . 4. Podľa predchádzajúceho bodu pre ľubovolné cn,1 platí pre disperziu náhodnej veličiny Y = c X nerovnosť 0 D(Y ) = D(c X) = c cov(X)c. Využívame aj poznatok, že disperzia každej náhodnej veličiny je nezáporné číslo (ak disperzia existuje). Q.E.D. 3 Niektoré aplikácie predchádzajúcich tvrdení: Majme náhodné premenné X1, X2 a poznáme ich kovariančnú maticu cov(X). Potom disperzie a kovariancie medzi náhodnými premennými Y1 = c1X1 + c2X2, Y2 = d1X1 + d2X2, Y3 = e1X1 + e2X2 ľahko dostaneme z kovariančnej matice náhodného vektora Y = c1 c2 d1 d2 e1 e2 X1 X2 = BX, keďže cov(Y) = Bcov(X)B . Napríklad ak Y1 = X1 - X2, Y2 = X1 + X2, tak cov(Y) = cov 1 -1 1 1 X1 X2 = 1 -1 1 1 D(X1) cov(X1, X2) cov(X2, X1) D(X2) 1 1 -1 1 = = D(X1) - cov(X2, X1) cov(X1, X2) - D(X2) D(X1) + cov(X2, X1) cov(X1, X2) + D(X2) 1 1 -1 1 = = D(X1) - 2cov(X1, X2) + D(X2) D(X1) - D(X2) D(X1) - D(X2) D(X1) + 2cov(X1, X2) + D(X2) . Majme dva náhodné vektory X = (X1, ..., Xn) , Y = (Y1, ..., Ym) . Nech existujú konečné kovariancie cov(Xi, Yj), i = 1, 2, ..., n, j = 1, 2, ..., m. Matica cov(X,Y) = cov(X1, Y1) cov(X1, Y2) ... cov(X1, Ym) cov(X2, Y1) cov(X2, Y2) ... cov(X2, Ym) ... ... ... ... cov(Xn, Y1) cov(Xn, Y2) ... cov(Xn, Ym) n,m je kovariančná matica vektorov X, Y. Veta 1.4: (Vlastnosti kovariančnej matice cov(X, Y).) Platí 1. cov(X, Y) = E[(X - E(X))(Y - E(Y)) ] = E(XY ) - E(X)[E(Y)] , 2. cov(X, X) = cov(X), 3. cov(ak,1+Bk,nX, bl,1+Cl,mY) = Bcov(X, Y)C , ak a, b, B, C sú nenáhodné vektory resp. nenáhodné matice, 4. ak m = n, tak cov(X + Y) = cov(X) + cov(Y) + cov(X, Y) + cov(Y, X), 5. cov( t i=1 Xi) = t i=1 t j=1 cov(Xi, Xj), 6. [cov(X, Y)] = cov(Y, X). 7. ETrAk,lZl,k = TrAE(Z), ak A je nenáhodná a Z náhodná matica. Dôkaz: 1. Spravte ako cvičenie. 2. Vyplýva z definície. 3. cov(a + BX, b + CY) = E{(a + BX - E(a + BX))(b + CY - E(b + CY)) } = = E{[B(X - E(X))][C(Y - E(Y))] } = E{B(X - E(X))(Y - E(Y)) C } = = BE{(X - E(X))(Y - E(Y)) }C = Bcov(X, Y)C . 4 4. cov(X + Y) = E{(X + Y - E(X + Y))(X + Y - E(X + Y)) } = = E{(X - E(X) + Y - E(Y))(X - E(X) + Y - E(Y)) } = = E{(X-E(X))(X-E(X)) +(Y-E(Y))(X-E(X)) +(X-E(X))(Y-E(Y)) +(Y-E(Y))(Y-E(Y)) } = = cov(X) + cov(Y, X) + cov(X, Y) + cov(Y). 5. Dokážte ako cvičenie. 6. [cov(X, Y)] = {E(XY ) - E(X)[E(Y)] } = E(YX ) - E(Y)[E(X)] = cov(Y, X). 7. ETrAZ = E{ k i=1 l j=1{A}i,j{Z}j,i} = k i=1 l j=1{A}i,jE{Z}j,i = TrAE(Z). Q.E.D. Nech existujú všetky korelačné koeficienty cor(Xi, Yj) = (Xi, Yj) = i,j = cov(Xi, Yj) D(Xi)D(Yj) , i = 1, 2, ..., n, j = 1, 2, ..., m. Matica cor(X, Y) = ( i,j) i=1,2,...,n j=1,2,...,m = cor(X1, Y1) cor(X1, Y2) ... cor(X1, Ym) cor(X2, Y1) cor(X2, Y2) ... cor(X2, Ym) ... ... ... ... cor(Xn, Y1) cor(Xn, Y2) ... cor(Xn, Ym) n,m sa volá korelačná matica vektorov X, Y. Špeciálne ak X = Y, píšeme cor(X) = 1 cor(X1, X2) ... cor(X1, Xn) cor(X2, X1) 1 ... cor(X2, Xn) ... ... ... ... cor(Xn, X1) cor(Xn, X2) ... 1 namiesto cor(X, X). Niekedy sa kovariančná matica piše cov(X) = 1,1 1,2 ... 1,n 2,1 2,2 ... 2,n ... ... ... ... n,1 n,2 ... n,n = 2 1 1,2 ... 1,n 2,1 2 2 ... 2,n ... ... ... ... n,1 n,2 ... 2 n , teda i,i = 2 i = D(Xi) = 2 X,i. Pri označení D = DX = 1 0 ... 0 0 2 ... 0 ... ... ... ... 0 0 ... n = diag(1, 2, ..., n) platí cor(X) = D-1 cov(X)D-1 a cov(X) = Dcor(X)D, lebo 1 1 0 ... 0 0 1 2 ... 0 ... ... ... ... 0 0 ... 1 n 2 1 1,2 ... 1,n 2,1 2 2 ... 2,n ... ... ... ... n,1 n,2 ... 2 n 1 1 0 ... 0 0 1 2 ... 0 ... ... ... ... 0 0 ... 1 n = 5 = 1 1,2 1 ... 1,n 1 2,1 2 2 ... 2,n 2 ... ... ... ... n,1 n n,2 n ... n 1 1 0 ... 0 0 1 2 ... 0 ... ... ... ... 0 0 ... 1 n = = 1 1,2 12 ... 1,n 1n 2,1 21 1 ... 2,n 2n ... ... ... ... n,1 n1 n,2 n2 ... 1 = cor(X). Analogicky cor(X, Y) = 1 X,1 0 ... 0 0 1 X,2 ... 0 ... ... ... ... 0 0 ... 1 X,n cov(X, Y) 1 Y,1 0 ... 0 0 1 Y,2 ... 0 ... ... ... ... 0 0 ... 1 Y,m , čiže cor(X, Y) = D-1 X cov(X, Y)D-1 Y a cov(X, Y) = DXcor(X, Y)DY. Veta 1.5: Ak An,n je reálna matica (nemusí byť ani symetrická) a existuje matica cov(X), tak E(X AX) = [E(X)] AE(X) + TrAcov(X). Dôkaz: Pomocou Vety 1.4 dostávame E(X AX) = E{(X - E(X) + E(X)) A(X - E(X) + E(X))} = = E{(X - E(X)) A(X - E(X)) + [E(X)] A(X - E(X)) + (X - E(X)) AE(X) + [E(X)] AE(X)} = = [E(X)] AE(X) + E{(X - E(X)) A(X - E(X))} + E{[E(X)] A(X - E(X))} + E{(X - E(X)) AE(X)} = = [E(X)] AE(X) + ETr(X - E(X)) A(X - E(X)) + [E(X)] AE[X - E(X)] + [E(X - E(X))] AE(X) = = [E(X)] AE(X) + ETrA(X - E(X))(X - E(X)) = [E(X)] AE(X) + TrAE{(X - E(X))(X - E(X)) } = = E(X) + TrAcov(X). Q.E.D. Náhodný výber rozsahu n je n-tica X1, X2, ..., Xn náhodných veličín, ktoré sú nezávislé a rovnako rozdelené. Ak sú rozdelené ako náhodná veličina X, teda ak Xi X, i = 1, 2, ..., n, tak povieme, že X1, X2, ..., Xn je náhodný výber z rozdelenia, aké má náhodná veličina X, napr. z N(, 2 ). Príklad 1.6: Nech X = (X1, ..., Xn) , n 2, je náhodný výber z rozdelenia s konečným rozptylom (disperziou) 2 . Označme S2 = 1 n - 1 n i=1 (Xi - X)2 (výberový rozptyl) a X = 1 n n i=1 Xi (výberový priemer). Ukážte, že S2 = 1 n-1 n i=1(Xi - X)2 = 1 n-1 ( n i=1 X2 i - nX 2 ) a určte E(S2 ). 6 Riešenie: S2 = 1 n - 1 n i=1 (Xi - X)2 = 1 n - 1 n i=1 (X2 i - 2XiX + X 2 ) = 1 n - 1 n i=1 (X2 i - 2Xi 1 n n j=1 Xj + X 2 ) = = 1 n - 1 n i=1 X2 i - 2n 1 n n i=1 Xi 1 n n j=1 Xj + nX 2 = 1 n - 1 n i=1 X2 i - nX 2 = = 1 n - 1 X X - n 1 n2 n i=1 Xi n j=1 Xj = 1 n - 1 X X - 1 n X 11 X = = X 1 n - 1 I - 1 n(n - 1) E X = X AX, pričom vektor (príslušného rozmeru), ktorého zložky sú samé jedničky budeme značiť 1 a štvorcovú maticu (príslušného rozmeru), ktorá má všetky prvky rovné jednej budeme značiť E. Platí teda E = 11 . Keď na náhodný výber X1, X2, ..., Xn pozeráme ako na náhodný vektor X = (X1, X2, ..., Xn) , tak jeho stredná hodnota a kovariančná matica sú E(X) = ... = 1, cov(X) = 2 0 ... 0 0 2 ... 0 ... 0 ... 0 0 0 ... 2 = 2 I, (E(Xi) = , D(Xi) = 2 ). Podľa Vety 1.5 je E(S2 ) = [E(X)] AE(X)+TrAcov(X) = 2 1 1 n - 1 I - 1 n(n - 1) E 1+Tr 1 n - 1 I - 1 n(n - 1) E 2 I = = 2 1 n - 1 1 1 - 1 n(n - 1) 1 11 1 +Tr 2 1 n - 1 I -Tr2 1 n(n - 1) E = 2 1 n - 1 n-2 1 n - 1 = 2 . 2 Mnohorozmerné normálne rozdelenie Ak má náhodná veličina X hustotu fX(x) = 1 2 2 e- (x-)2 22 , x (-, ), kde R, 2 > 0, tak X má regulárne normálne rozdelenie s parametrami a 2 . Píšeme X N(, 2 ). Veta 2.1: Nech X N(0, 1) a (-, ), = 0. Platí U = + X N(, 2 ). Dôkaz: X má hustotu fX = 1 2 e- x2 2 . (i) ak > 0, tak distribučná funkcia náhodnej veličiny U = + X je FU (x) = F+X(x) = P{ + X < x} = P X < x - = x- - 1 2 e- t2 2 dt = (substitúcia t = u- , dt = du ) = x - 1 2 e- (u-)2 22 du, 7 teda hustota U je v tomto prípade 1 2 e- (u-)2 22 . (i) ak < 0, tak distribučná funkcia náhodnej veličiny U = + X je FU (x) = F+X(x) = P{ + X < x} = P X > x - = x- 1 2 e- t2 2 dt = (substitúcia t = u- , dt = du ) = - x 1 2 e- (u-)2 22 du = x - 1 2(-) e- (u-)2 22 du, teda hustota U je v tomto prípade 1 2(-) e- (u-)2 22 . V obidvoch prípadoch je hustota U rovná fU (x) = 1 2|| e- (u-)2 22 = 1 2 2 e- (u-)2 22 , a teda U N(, 2 ). Q.E.D. Charakteristická funkcia náhodnej veličiny X N(0, 1) je X(t) = E eitX = eitx 1 2 e- x2 2 dx = 1 2 (cos tx)e- x2 2 párna (sudá) funkcia dx + (sin tx)e- x2 2 nepárna (lichá) funkcia dx = = 1 2 2 0 (cos tx)e- x2 2 dx = 1 2 2 2 1 2 e - t2 4 1 2 = e- t2 2 . Tu sme využili výsledok z analýzy 0 (cos bx)e-a2 x2 dx = 2a e- b2 4a2 , ak a > 0. Teda X N(0, 1) má charakteristickú funkciu X(t) = e- t2 2 . Ak U N(, 2 ), > 0, tak U = + X (kde X N(0, 1)) a preto U (t) = E eit(+X) = E eit eitX = eit E ei(t)X = eit X(t) = eit- t22 2 . (Poznamenávame len, že rovnakú charakteristickú funkciu (teda aj rovnaké rozdelenie pravdepodobnosti) má aj náhodná veličina U = - X). Nech 2 > 0. Náhodná veličina X má regulárne normálne N(, 2 ) rozdelenie, keď má hustotu f(x) = 1 2 2 e- (x-)2 22 a charakteristickú funkciu eit- t22 2 . Nech = 0. Ak má náhodná veličina X charakteristickú funkciu eit , tak to je diskrétna náhodná veličina, ktorá nadobúda (jedinú) hodnotu s pravdepodobnosťou 1 (čiže P{X = } = 1). Povieme, že v tomto prípade má X singulárne normálne N(, 0) rozdelenie. Dospeli sme k (všeobecnej) definícii normálneho rozdelenia Definícia 2.2: Nech (-, ), 2 0. Povieme, že X N(, 2 ) (teda, že X má jednorozmerné normálne rozdelenie s parametrami (-, ), 2 0), ak má charakteristickú funkciu X(t) = eit- t22 2 , t (-, ). Dokážte ako príklad, že ak X N(, 2 ), tak E(X) = a D(x) = 2 . 8 Definícia 2.3: Nech Rn a = (i,j)i=1,2,...,n j=1,2,...,n je pozitívne semidefinitná symetrická matica. Povieme, že náhodný vektor X má n-rozmerné normálne rozdelenie, ak pre každý vektor c Rn je c X N(c , c c). Píšeme X Nn(, ). Veta 2.4: Nech X Nn(, ). Potom E(X) = a covX = . Dôkaz: Označme ej Rn j-ty jednotkový vektor (čiže vektor, ktorý má na j-tom mieste 1, inde všade 0). Potom Xj = ejX N(ej = j, ejej = j,j), teda E(Xj) = j, D(Xj) = j,j. Platí, že E(X) = a {}i,i = D(Xi), i = 1, 2, ..., n. Uvažujme teraz vektor cj,k Rn , cj,k = ej + ek, j = k. Platí cj,kX = Xj + Xk N(cj,k = j + k, cj,kcj,k = j,j + j,k + k,j + k,k), teda D(cj,kX) = j,j + k,k + 2j,k (1) Podľa Vety 1.3, bod 3 (a = 0, B = cj,k) a Vety 1.4, bod 5 je D(cj,kX) = D(Xj + Xk) = D(Xj) + D(Xk) + cov(Xj, Xk) + cov(Xk, Xj) = D(Xj) + D(Xk) + 2cov(Xj, Xk). (2) Pretože D(Xj) = j,j, D(Xk) = k,k, dostávame z (1) a (2) j,k = cov(Xj, Xk) a teda = covX. Q.E.D. Veta 2.5: Nech X Nn(, ). Potom charakteristická funkcia X(t) = eit - 1 2 t t , t Rn . Dôkaz: Pre dané t Rn je t X N1(t , t t) a X(t) = E eit X = E ei1(t X) = t X(1) = ei1(t )- 12t t 2 = eit - 1 2 t t . Q.E.D. Veta 2.6: Nech X Nn(, ), a Rm , Bm,n reálna (pevná) matica. Potom Y = a + BX Nm(a + B, BB ). Dôkaz: Pre dané t Rm je Y(t) = E eit Y = E eit (a+BX) = eit a E ei(t B)X = eit a X(B t) = eit a eit B- 1 2 (t B)(B t) = = eit (a+B)- 1 2 t (BB )t , čo je charateristická funkcia m- rozmernej normálne rozdelenej náhodnej veličiny so strednou hodnotou a + B a kovariančnou maticou BB , čiže Y = a + BX Nm(a + B, BB ). Q.E.D. Označme Xn,1 = X1 ... Xk Xk+1 ... Xn = X1 X2 , 1 k n, čiže X1 = X1 ... Xk Rk , X2 = Xk+1 ... Xn Rn-k . (3) 9 Veta 2.7: Nech X Nn(, ). Potom X1 Nk(1, 11), kde 1 = E(X1) ... E(Xk) = 1 ... k , 11 = 1,1 1,2 ... 1,k 2,1 2,2 ... 2,k ... ... ... ... k,1 k,2 ... k,k . (Poznamenávame len, že = 11 12 21 22 , teda 12 je k × (n - k) matica, 21 je (n - k) × k matica a 22 je (n - k) × (n - k) matica.) Dôkaz: X1 = (Ik,k ...0k,n-k)X = X1 Nk (I ...0), (I ...0) I 0 , čiže X1 Nk(1, 11). Q.E.D. Poznámka: Môžeme za X1 vybrať ľubovoľnú k-ticu náhodných premenných z X1, ..., Xn, marginálne rozdelenie náhodného vetora X1 je vždy normálne s "prirodzenými parametrami". Veta 2.8: Nech X = X1 X2 Nn(, ) (podľa (3)), potom platí X1 a X2 sú nezávislé cov(X1, X2) = 0k,n-k (sú nekorelované). Dôkaz: Ak sú X1 a X2 sú nezávislé = Xi a Xj sú nezávislé pre všetky i {1, ..., k}, j {k+1, ..., n}, teda cov(Xi, Xj) = 0 pre všetky i {1, ..., k}, j {k + 1, ..., n}, čiže cov(X1, X2) = 0. Naopak, ak cov(X1, X2) = 0 = 12 = 0, teda pre charakteristickú funkciu náhodného vektora X platí pre každé t = (t1, t2) , pričom t1 Rk , t1 Rn-k , X(t) = eit - 1 2 t t = e i(t1,t2) 1 2 - 1 2 (t1,t2) 11 0 0 22 t1 t2 = = eit11- 1 2 t111t1 eit22- 1 2 t222t2 = X1 (t1)X2 (t2) (je súčinom charakteristických funkcií subvektorov X1 a X2), teda (pozri Rényi, A., Teória pravděpodobnosti, ACADEMIA, Praha, 1972, str. 300) X1 a X2 sú nezávislé. Q.E.D. Skôr ako sa dostaneme k faktorizácii kovariančnej matice, zopakujme si niekoľko poznatkov z algebry. Nech A je symetrická m × m (štvorcová) reálna matica. det(A - I) ozn. = |A - I| = 0 je charakteristická rovnica matice A. Je to rovnica m-tého stupňa. Jej korene sú 1, 2, ..., m. Voláme ich vlastné (alebo charakteristické) čísla matice A. Ku každému vlastnému číslu existuje nenulový vlastný (alebo charakteristický) vektor Pi, že platí APi = iPi. Platí: I. Ak h(A) = r (hodnosť matice A), tak nula je (m - r)-násobným koreňom rovnice |A - I| = 0. II. Všetky vlastné čísla sú reálne a aj všetky vlastné vektory sú reálne. Môžeme vlastné čísla teda prečíslovať tak, aby 1 2 ... m. III. Pi, Pj prislúchajúce i = j sú navzájom ortogonálne. Bez újmy na všeobecnosti môžeme zvoliť PiPj = 1 (ortonormálne). 10 IV. Ak A je pozitívne definitná, tak 1 2 ... m > 0. Ak A je pozitívne semidefinitná a h(A) = r, tak 1 2 ... r > r+1 = ... = m = 0. V. Existuje ortogonálna matica Pm,m (P P = PP = I), že AP = P. Matica P = (P1 ...P2 ...... ...Pm) a = 1 0 ... 0 0 2 ... 0 ... ... ... ... 0 0 ... m . Teda P AP = a A = PP . Rovniciam A = PP = 1P1P1 + ... + mPmPm I = PP = P1P1 + ... + PmPm hovoríme spektrálny rozklad matice A (bližšie pozri napr. v Rao, C., R., Lineární metódy statistické indukce a jejich aplikace, ACADEMIA, Praha, 1978). Nech má náhodný vektor Xn,1 kovariančnú maticu cov(X) = . Ak h() = r 1, tak z predchádzajúceho = PP , kde = 1 0 0 ... 0 ... ... ... ... 0 ... r 0 ... 0 0 ... 0 0 ... 0 ... ... ... ... 0 ... 0 0 ... 0 , čiže = (P1 ...P2 ...... ...Pm) 1 0 0 ... 0 ... ... ... ... 0 ... r 0 ... 0 0 ... 0 0 ... 0 ... ... ... ... 0 ... 0 0 ... 0 1 0 0 ... 0 ... ... ... ... 0 ... r 0 ... 0 0 ... 0 0 ... 0 ... ... ... ... 0 ... 0 0 ... 0 P1 P2 ... Pm = = ( 1P1 ... 2P2 ...... ... rPr) 1P1 2P2 ... rPr = Bn,rBr,n a platí h(Bn,r) = r. Rozklad kovariančnej matice n,n = Bn,rBr,n, pričom h(Bn,r) = r, sa volá faktorizácia kovariančnej matice. Veta 2.9: Nech X Nn(, ), h() = r 1, = Bn,rB , h(B) = r. Nech U = (U1, ..., Ur) Nr(0, Ir,r). Potom X a +BU majú rovnaké rozdelenie pravdepodobnosti (z pravdepodobnostného hľadiska sú ekvivalentné, nerozoznáme ich). 11 Dôkaz: X Nn(, = BB ), U Nr(0, I). Podľa Vety 2.6 + BU Nn( + B0 = , Bcov(U)B = ). Q.E.D. Poznámka: Ak X Nn(, ), h() = r < n, tak povieme, že X má singulárne normálne rozdelenie (nemá napr. hustotu na celom Rn ). Popíšeme ho pomocou vektora U = (U1, ..., Ur) , kde Ui N(0, 1) sú nezávislé (pomocou Vety 2.9). Skôr ako si odvodíme hustotu mnohorozmerného normálneho rozdelenia, zopakujme si vetu o hustote transformovaného náhodného vektora. Veta 2.10: (O hustote transformovaného náhodného vektora) Nech náhodný vektor X = (X1, ..., Xn) má hustotu p(x) vzhľadom k Lebesgueovej miere v Rn . Nech t : Rn Rn je regulárne a prosté zobrazenie na otvorenej množine G Rn , pre ktorú G p(x)dx = 1, t.j. 1. (prosté) x1 G, x2 G, x1 = x2 = t(x1) = t(x2), 2. (regulárne) G je otvorená podmnožina Rn , 3. (regulárne) pre každé x G existuje spojitá ti(x) xj , i, j {1, 2, ..., n}, 4. (regulárne) pre každé x G je Jakobián Dt(x) ozn. = det t x = det t1(x) x1 ... t1(x) xn t2(x) x1 ... t2(x) xn ... ... ... tn(x) x1 ... tn(x) xn = 0. Označme : t(G) G inverzné zobrazenie k (teda ((t(x)) = x pre všetky x G). Náhodný vektor Y = t(X) má hustotu vzhľadom k Lebesgueovej miere rovnú q(y) = p[(y)]|D (y)|, pre y t(G), 0 pre y / t(G). Dôkaz: nájdeme v Jarník, V., Integrální počet I. II. Praha, NČSAV, 1955-1956, alebo Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 47. Veta 2.11: Nech Y Nn(, ), h() = n. Potom existuje hustota vektora Y a rovná sa fY(y) = 1 (2) n 2 det e- 1 2 (y-) -1 (y-) , y Rn . Dôkaz: Kovariančnú maticu faktorizujeme a dostávame = Bn,nB , h(B) = n. Podľa Vety 2.9 Y sa dá písať ako + BU, U = (U1, ..., Un) Nn(0, In,n), a podľa Vety 2.8 sú Uj N1(0, 1), j = 1, 2, ..., n nezávislé. Majú hustotu Uj (uj) = 1 2 e- u2 j 2 , j = 1, 2, ..., n. Hustota náhodného vektora U je U(u) = U1 (u1)...Un (un) = 1 (2) n 2 e- 1 2 u u , u Rn . Náhodný vektor Y = +BU, teda Y je transformovaný vektor U. Zobrazenie t : Rn Rn dané predpisom t(u) = + Bu je prosté a regulárne na celom Rn a Y = t(U). Naozaj, ak u1 = u2 = + Bu1 = + Bu2 (lebo B je regulárna matica). tj(u) ui = (j + {B}j1u1 + ... + {B}jnun) ui = {B}ji, i, j {1, 2, ..., n} 12 existuje a je spojté pre všetky u Rn . Jakobián Dt(u) = det t1(u) u1 ... t1(u) un t2(u) u1 ... t2(u) un ... ... ... tn(u) u1 ... tn(u) un = det B = 0 pre všetky u Rn . Inverzné zbrazenie k t je : Rn Rn dané predpisom (y) = B-1 (y-) (lebo (t(u)) = B-1 (t(u)) = B-1 ([ + Bu] - ) = u pre všetky u Rn ). Náhodný vektor Y = t(U) má podľa Vety 2.10 hustotu rovnú fY(y) = ((y))|D (y)| = 1 (2) n 2 e- 1 2 [(y)] [(y)] |D (y)| = 1 (2) n 2 e- 1 2 (y-) (B-1 ) B-1 (y-) | det B-1 | = 1 (2) n 2 det e- 1 2 (y-) -1 (y-) , lebo BB = = -1 = (B )-1 B-1 , ale (B )-1 = (B-1 ) (čo vyplýva z rovnosti B (B-1 ) = (B-1 B) = I), teda -1 = (B-1 ) B-1 a det B = det B , teda (0 <) det = det BB = (det B)2 , čiže | det B| = det , z čoho dostávame | det B-1 | = 1 | det B| = 1 det . Q.E.D. Dôsledok 2.12: V prípade n = 2 dostávame hustotu dvojrozmerného normálneho rozdelenia f(x1, x2) = 1 2 1 - 2 D(X1)D(X2) e - 1 2(1- 2) (x1-1)2 D(X1) -2 (x1-1)(x2-2) D(X1)D(X2) + (x2-2)2 D(X2) , lebo = D(X1) cov(X1, X2) cov(X2, X1) D(X2) je pozitívne definitná práve vtedy ak D(X1) > 0, D(X2) > 0 a 2 = cov2 (X1,X2) D(X1)D(X2) = 1 a v takomto prípade (podľa vzorca a b b c = 1 ac-b2 c -b -b a ) je -1 = 1 D(X1)D(X2) - cov2(X1, X2) D(X2) -cov(X1, X2) -cov(X1, X2) D(X1) = = 1 1 - 2 1 D(X1) - D(X1)D(X2) - D(X1)D(X2) 1 D(X2) . Poznámka 2.13: Ak má náhodný vektor Xn,1 = X1 X2 , kde X1 Rk , X2 Rn-k , hustotu f(x1, x2), tak podmienené rozdelenie X1/X2 = x2 (v tomto absolútne spojitom prípade) má hustotu (x1/x2) = f(x1, x2) Rk f(x1, x2)dx1 . 13 Lema 2.14: Nech = 11 12 21 22 je pozitívne definitná, tak (i) 22 je pozitívne definitná matica, (ii) 11 - 12-1 22 21 je pozitívne definitná matica. Dôkaz: (i) je pozitívne definitná, teda y Rn y y 0 a y y = 0 y = 0. Z toho vyplýva, že x Rn-k (0 , x ) 0 x = x 22x 0 a (0 , x ) 0 x = x 22x = 0 x = 0. (ii) L = I -12-1 22 0 I je regulárna (lebo det L = 1), teda LL = I -12-1 22 0 I 11 12 21 22 I 0 --1 22 21 I = = 11 - 12-1 22 21 0 21 22 I 0 --1 22 21 I = 11 - 12-1 22 21 0 0 22 je pozitívne definitná, teda 0 < det = det(LL ) = det(11 - 12-1 22 21) det(22) (4) a preto det(11 - 12-1 22 21) > 0 a 11 - 12-1 22 21 = (I ... - 12-1 22 ) 11 12 21 22 I --1 22 21 je pozitívne defintná matica. Q.E.D. Lema 2.15: Platí L-1 = I 12-1 22 0 I a (L )-1 = I 0 -1 22 21 I = (L-1 ) . Dôkaz: je jednoduchý, spravte ho ako cvičenie. Lema 2.16: Nech x1, 1 Rk , x2, 2 Rn-k . Platí (x-) -1 (x-) = (x1 -[1 +12-1 22 (x2 -2)]) (11 -12-1 22 21)-1 (x1 -[1 +12-1 22 (x2 -2)])+ + (x2 - 2) -1 22 (x2 - 2). Dôkaz: Počítajme (x - ) -1 (x - ) = (x1 - 1, x2 - 2)L (L )-1 (L)-1 (LL )-1 L x1 - 1 x2 - 2 = (x1-1, x2-2) I 0 --1 22 21 I (11 - 12-1 22 21)-1 0 0 -1 22 I -12-1 22 0 I x1 - 1 x2 - 2 = (x1-1-(x2-2)-1 22 21, x2-2) (11 - 12-1 22 21)-1 0 0 -1 22 x1 - 1 - 12-1 22 (x2 - 2) x2 - 2 = 14 = (x1 - [1 + 12-1 22 (x2 - 2)]) (11 - 12-1 22 21)-1 (x1 - [1 + 12-1 22 (x2 - 2)])+ + (x2 - 2) -1 22 (x2 - 2). Q.E.D. Využijúc (4) a Lemu 2.16 ľahko dostaneme Dôsledok 2.17: Nech Xn,1 = X1 X2 N 1 2 , 11 12 21 22 (označenie podľa (3) a Vety 2.7), potom hustota X je fX(x1, x2) = 1 (2) n 2 det e- 1 2 (x-) -1 (x-) = fX(x1, x2) = 1 (2) k 2 det(11-12-1 22 21) e- 1 2 (x1-[1+12-1 22 (x2-2)]) (11-12-1 22 21)-1 (x1-[1+12-1 22 (x2-2)]) × 1 (2) n-k 2 det 22 e- 1 2 (x2-2) -1 22 (x2-2) = (x1, x2)f2(x2). Podmienené rozdelenie X1/X2 = x2 má podľa Poznámky 2.13 hustotu (x1/x2) = f(x1, x2) Rk f(x1, x2)dx1 = (x1, x2)f2(x2) Rk (x1, x2)f2(x2)dx1 = (x1, x2) Rk (x1, x2)dx1 . Vidíme, že pri pevnom x2 je (x1, x2) hustotou náhodného vektora Nk(1 +12-1 22 (x2 -2), 11 - 12-1 22 21) a teda Rk (x1, x2)dx1 = 1, čiže hustota (x1/x2) podmiemeného rozdelenia X1/X2 = x2 je (x1, x2). Dokázali sme, že X1/X2 = x2 Nk(1 + 12-1 22 (x2 - 2), 11 - 12-1 22 21). (5) Dôležitý je špeciálny prípad n = 2. Ak X2,1 má regulárne dvojrozmerné normálne rozdelenie, teda X = X1 X2 N 1 2 , D(X1) D(X1)D(X2) D(X1)D(X2) D(X2) , tak X1/X2 = x2 N1 1 + D(X1) D(X2) (x2 - 2), D(X1)(1 - 2 ) . (6) 3 Rozdelenie kvadratických foriem Definícia 3.1: Náhodná veličina X má Gama rozdelenie s parametrami a, b, a > 0, b > 0 (označme X (a, b)), ak má hustotu h(x) = ab (b) e-ax xb-1 , ak x > 0, 0, ak x 0. Ponamenávame len, že pre funkciu gama platí (a) = 0 e-x xa-1 dx, a > 0, (n) = (n - 1)! pre n prirodzené číslo, 1 2 = , a(a) = (a + 1) pre každé kladné číslo a. S funkciou gama je úzko spätá funkcia beta (označujeme B(a, b), a > 0, b > 0), B(a, b) = 1 0 xa-1 (1-x)b-1 dx. Medzi funkciami gama beta platí vzťah B(a, b) = (a)(b) (a+b) . 15 Definícia 3.2: Náhodná veličina Y má 2 n rozdelenie (chíkvadrát rozdelenie s n stupňami voľnosti), ak má 1 2 , n 2 rozdelenie. Teda Y má hustotu f(y) = 1 2 1 2 (n 2 ) e- y 2 y n 2 -1 , ak y > 0, 0, ak y 0. Veta 3.3: Nech X1, X2, ..., Xn sú nezávislé N(0, 1) rozdelené náhodné veličiny. Náhodná veličina Y = X2 1 + X2 2 + ... + X2 n má 2 n rozdelenie. Dôkaz: (indukciou) Pre n = 1, nech X1 N(0, 1) a x > 0, tak distribučná funkcia FX2 1 (x) = P{X2 1 < x} = P{- x X1 < x} - P{ x = X1} = x - x 1 2 e- t2 2 dt, teda hustota fX2 1 (x) = d dx FX2 1 (x) = 1 2 e- ( x)2 2 ( x) - 1 2 e- (- x)2 2 (- x) = = 1 2 e- x 2 1 2 x - 1 2 e- x 2 - 1 2 x = 1 2 2 e- x 2 x- 1 2 = 1 2 1 2 1 2 e- x 2 x- 1 2 a fX2 1 (x) = 0 pre x 0. Nech teraz X2 1 + X2 2 + ... + X2 n má pre x > 0 hustotu 1 2 1 2 (n 2 ) e- x 2 x n 2 -1 . Potom fX2 1 +X2 2 +...+X2 n+1 (x) = 0 fX2 1 +X2 2 +...+X2 n (x - u)fX2 n+1 (u)du = = x 0 1 2 1 2 n 2 e- x-u 2 (x - u) n 2 -1 1 2 1 2 1 2 e- u 2 u- 1 2 du = = e- x 2 2 n+1 2 n 2 1 2 = x 0 (x - u) n 2 -1 u- 1 2 du = (substitúcia u x = w, du = xdw) = e- x 2 x n 2 -1 x- 1 2 x 2 n+1 2 n 2 1 2 1 0 (1 - w) n 2 -1 w 1 2 -1 dw = e- x 2 x n+1 2 -1 2 n+1 2 n 2 1 2 B n 2 , 1 2 = = e- x 2 x n+1 2 -1 2 n+1 2 n 2 1 2 n 2 1 2 n+1 2 = 1 2 n+1 2 n+1 2 e- x 2 x n+1 2 -1 . Q.E.D. Poznámka 3.4: Veta 3.3 je alternatívnou definíciou 2 n rozdelenia. Veta 3.5: Nech Y 2 r, Z 2 s sú nezávislé náhodné veličiny. Potom Y + Z 2 r+s. Dôkaz: Y = X2 1 + X2 2 + ... + X2 r , Z = X2 r+1 + X2 r+2 + ... + X2 r+s, pričom všetky X1, X2, ..., Xr+s sú nezávslé a N(0, 1) rozdelené. Preto Y + Z = X2 1 + ... + X2 r+s 2 r+s. Q.E.D. Teraz si niečo zopakujeme z teórie zovšeobecnených inverzií matíc. Najprv si dokážeme vetu, ktorú budeme často používať. Veta 3.6: Pre každú maticu Dk,l platí M(D) = M(DD ), kde M(D) = {Du : u Rl } je vektorový priestor generovaný st´lpcami matice D (podpriestor priestora Rk ). Dôkaz: Označme [M(D)] ortogonálny doplnok priestora M(D) v (celom) priestore Rk . Platí M(D) = M(DD ) [M(D)] = [M(DD )] . Budeme dokazovať rovnosť priestorov [M(D)] a [M(DD )] . 16 Ak z [M(DD )] = z DD = 0 = z DD z = 0 = (D z)(D z) = 0 = D z = 0 = z D = 0 = z [M(D)] , teda [M(DD )] [M(D)] . Ak z [M(D)] = z D = 0 = z DD = O = z [M(DD )] , teda [M(D)] [M(DD )] Dostávame, že [M(D)] = [M(DD )] . Q.E.D. Definicia 3.7: Majme maticu Am,n. Maticu Atypu rozmerov n × m nazývame g-inverziou (zovšeobecnenou inverziou, pseudoinverziou) matice A, ak platí AAA = A. Veta 3.8: Pseudoinverzná matica k matici Am,n vždy existuje. Nemusí byť jediná. Dôkaz: (i) Ak A = 0, tak ľubovoľná matica typu n × m je A- . (ii) Ak h(A) = r 1, r min{m, n}, tak A má r lineárne nezávislých st´lpcov. Vezmime tieto nezávislé st´lpce (v ľubovoľnom poradí) a dostaneme maticu Bm,r. Každý st´lpec matice A, teda {A}.i, i = 1, 2, ..., n dostaneme ako lineárnu kombináciu st´lpcov matice B, teda {A}.i = Bci, i = 1, 2, ..., n. Maticu (c1 ...c2 ... ... ...cn)r,n označme C. Teda A = BC, pričom h(B) = r. Pretože h(A) = r min{h(B), h(C)} h(C) a naopak h(Cr,n) min{r, n}, dostávame h(C) = r. Práve opísaný rozklad matice A Am,n = Bm,rCr,n, h(A) = h(B) = h(C) = r (7) budeme často používať. Matica B B je rozmerov r × r, pričom podľa Vety 3.6 je M(B B) = M(B ), teda aj h(B B) = h(B ) = h(B) = r. Matica B B je regulárna. Existuje inverzná matica (B B)-1 . Úplne analogicky dostaneme, že existuje matica (CC )-1 . Preto existuje aj matica C (CC )-1 (B B)-1 B (typu n × m) a platí AC (CC )-1 (B B)-1 B A = BCC (CC )-1 (B B)-1 B BC = BC = A, čiže C (CC )-1 (B B)-1 B = A. Q.E.D. Veta 3.9: Ak h(An,r) = r 1, tak AA = Ir pre ľubovoľnú A- . Dôkaz: Pre ľubovoľnú Aje AAA = A, teda pre každé x Rr plati A(AA - I)x = 0. Pretože h(A) = r, sú st´lpce matice A lineárne nezávislé a z toho dostávame x Rr A[(AA - I)x] = 0 = x Rr (AA - I)x = 0, čiže AA - I = 0, alebo AA = I. Q.E.D. Veta 3.10: Ak h(An,r) = r 1, tak A (A )= Ir pre ľubovoľnú (A )- . Dôkaz: Pre ľubovoľnú (A )je A (A )A = A , teda pre každé x Rr plati x (A (A )- I)A = 0. Pretože h(A ) = r, sú riadky matice A lineárne nezávislé a z toho dostávame x Rr x [A (A )- I)]A = 0 = x Rr x (A (A )- I) = 0, čiže A (A )- I = 0, alebo A (A )= I. Q.E.D. Veta 3.11: Ak h(An,r) = r 1, tak A (AA )A = Ir pre ľubovoľnú (AA )- . Dôkaz: Pre ľubovoľnú (AA )- platí AA (AA )AA = AA , teda AAA (AA )AA (A )= AAA (A )- . 17 Využijeme Vetu 3.9 a Vetu 3.10 a dostávame A (AA )A = Ir. Q.E.D. Veta 3.12: Ak Ak,k je idempotentná (teda AA = A), tak h(A) = TrA. Dôkaz: (i) Ak h(A) = 0, tak A = 0 a tvrdenie je zrejmé. (ii) Ak h(A) = r 1, tak podľa rozkladu (7) Ak,k = Bk,rCr,k, pričom h(B) = h(C) = r. Pretože A je idempotentná, postupne platí AA = A BCBC = BC B- BCBCC= B- BCCa podľa Vety 3.9 a Vety 3.10 CB = Ir. Dostávame TrA = TrBC = TrCB = TrIr = r = h(A). Q.E.D. Teraz sa vráťme k rozdeleniam kvadratických foriem. Veta 3.13: Nech X Nn(, ), h() = r 1 a nech je ľubovoľná g-inverzia matice . Platí (X - ) (X - ) 2 r. Dôkaz: Faktorizujeme kovariančnú maticu a dostaneme = Bn,rB , pričom h(B) = r. Ak U Nr(0, I) tak podľa Vety 2.9 X = + BU Nn(, ), teda (X - ) (X - ) = (BU) BU = U B (BB )BU = U U 2 r podľa Vety 3.3 a Vety 3.11. Q.E.D. Veta 3.14: Nech X Nn(, ) a An,n je symerická pozitívne semidefinitná matica, A = 0, AA = A (idempotentná). Potom Y = (X - ) A(X - ) 2 T rA. Dôkaz: Pretože A = 0, je h(A) = r 1 a existuje matica Bn,r s hodnosťou h(B) = r, že A = BB (faktorizácia matice A). Teda Y = (X - ) A(X - ) = (X - ) BB (X - ) = (B (X - )) (B (X - )) = , kde = B X - B Nr(0, B B). Pretože A je idempotentná, pomocou Vety 3.9 dostávame AA = A BB BB = BB BBB BB B = BBB B B BB B = B B, čiže matica B B je idempotentná a teda (B B)= Ir (jedna jej g-inverzia). Je zrejmé, že h(B B) = TrB B = TrBB = TrA 1 (lebo A = 0). Aplikujeme Vetu 3.13 na náhodný vektor = B X-B a dostávame (B X - B - 0) (B B)(B X - B - 0) 2 h(B B) 18 (X - ) BIrB (X - ) 2 T rA (X - ) A(X - ) 2 T rA. Q.E.D. Veta 3.15: Nech X Nn(, ) a An,n, Bm,n reálne matice taká, že BA = 0, A je symetrická a pozitívne semidefinitná. Potom náhodný vektor Y = BX + b a náhodná veličina V = (X - a) A(X - a) sú nezávislé pre ľubovoľné vektory b Rm a a Rn . Dôkaz: Ak A = 0, tak V je nezávislá s (ľubovoľným) Y. Ak A = 0, h(A) = r 1, tak faktorizujeme A = Cn,rC , h(C) = r. Náhodný vektor C X BX = C B X N C B , C B (C ...B ) = C C C B BC BB . Z predpokladu BA = 0 postupne dostávame BCC = 0 BCC (C )= 0 a podľa Vety 3.10 BC = 0. Pretože cov(BX, C X) = BC = 0 a C X BX je normálne rozdelený, sú vektory BX a C X nezávislé. Čiže aj pre ľubovoľná vektory b Rm a a Rn sú b + BX a C (X - a) nezávislé, ale aj (ich funkcie) Y = BX + b a (C (X - a)) (C (X - a)) = (X - a) A(X - a) = V . Q.E.D. Veta 3.16: Nech X Nn(, ) a An,n, Bn,n sú reálne symetrické pozitívne semidefinitné matice také, že BA = 0. Potom náhodné veličiny Y1 = (X - a) A(X - a) a Y2 = (X - b) B(X - b) sú nezávislé pre ľubovoľné vektory a Rn a b Rn . Dôkaz: Stačí uvažovať prípad h(A) = r 1, h(B) = s 1. Faktorizujeme A aj B, teda A = Cn,rC , h(C) = r a B = Gn,sG , h(G) = s. Z predpokladu BA = 0 dostávame GG CC = 0 a GGG CC (C )= 0, čiže (použijúc Vetu 3.9 a Vetu 3.10) G C = 0. Teda G (X - a) a C (X - a) sú pre ľubovoľné vektory a Rn a b Rn nekorelované a v tomto prípade (normality) aj nezávislé. Ale potom aj ich funkcie (C (X - a)) (C (X - a)) = (X - a) CC (X - a) = (X - a) A(X - a) = Y1 a (G (X-b)) (G (X-b)) = (X-b) GG (X-b) = (X-b) B(X-b) = Y2 sú pre ľubovoľné vektory a Rn a b Rn nezávislé. Q.E.D. Teraz uveďme jednu veľmi dôležitú aplikáciu predchádzajúcich viet v štatistike. Veta 3.17: Nech X1, X2, ..., Xn je náhodný výber z N(, 2 ). X = 1 n n i=1 Xi je výberový priemer a S2 = 1 n-1 n i=1(Xi - X)2 je výberový rozptyl. Potom platí (i) X N(, 2 n ), (ii) pre 2 > 0, n 2 je n-1 2 S2 2 n-1, (iii) pre n 2 sú X a S2 nezávislé. Dôkaz: Podľa Príkladu 1.6 keď označíme X = (X1, ..., Xn) , tak platí X Nn(1, 2 In,n), kde 1 je n-rozmerný vektor, ktorého každá zložka je rovná 1. Potom ale X = ( 1 n , 1 n , ..., 1 n )X = 1 n 1 X (8) a podľa Príkladu 1.6 pre n 2 je S2 = X 1 n - 1 I - 1 n(n - 1) 11 X = X 1 n - 1 I - 1 n(n - 1) E X (9) 19 (n × n matica E má všetky prvky rovné 1). (i) Podľa Vety 2.6 dostávame X N1 ( 1 n , 1 n , ..., 1 n )1 = , ( 1 n , 1 n , ..., 1 n )2 I 1 n 1 n ... 1 n = 2 n . (ii) Z (9) dostávame pre n 2 n-1 2 S2 = X 1 2 I - 1 n2 11 X = X AX, pričom A1 = 1 2 1- 1 n2 1n = 0. Preto n - 1 2 S2 = (X - 1) 1 2 I - 1 n2 11 (X - 1). Ukážeme, že A sp´lňa predpoklady Vety 3.14. Platí A = A (A je symetrická), pre každý vektor y Rn je y Ay = 1 2 y (I - 1 n 11 )y = 1 2 y (I - 1 n 11 ) (I - 1 n 11 )y 0 (A je pozitívne semidefintná), A2 I = 0 a A2 IA2 I = I - 1 n 11 I - 1 n 11 = I - 1 n 11 = A2 I. Pretože TrA2 I = Tr I - 1 n 11 = n - 1 n Tr11 = n - 1, priamo z Vety 3.14 dostávame,že n-1 2 S2 2 n-1. (iii) Pretože ( 1 n , 1 n , ..., 1 n )2 IA = 1 n 1 I - 1 n 11 = 1 n 1 - 1 n2 1 11 = 0, podľa Vety 3.15 sú X a S2 nezávislé. Q.E.D. 4 Teoretické základy lineárnej regresie a korelácie Y, X1, X2, ...Xk nech sú náhodné veličiny na tom istom pravdepodobnostnom priestore (, A, P) s konečnými druhými momentami. Našim cieľom je predikovať Y pomocou X. Predikciou rozumieme (vhodnú) náhodnú veličinu ^Y = g(X1, ..., Xn), kde g : Rk R1 je merateľné zobrazenie. My sa budeme zaoberať lineárnuou predikciou ^Y = 0 + 1X1 + ... + kXk = 0 + X, teda ak g(x1, ..., xk) = 0 + k i=1 ixi. Kvalitu predikcie budme posudzovať strednou kvadratickou chybou E(Y - ^Y )2 . Veta 4.1: Nech Y, X1, X2, ...Xk sú náhodné veličiny na tom istom pravdepodobnostnom priestore (, A, P) s konečnými druhými momentami a kovariančná matica náhodného vektora X = (X1, ..., Xn) je pozitívne definitná. Pre lineárnu predikciu ^Y = 0 + X platí E(Y - ^Y )2 = E(Y - 0 - X)2 D(Y ) - cov(Y, X)[cov(X)]-1 cov(X, Y ). Rovnosť sa dosiahne práve ak 0 = E(Y ) - E(X) a = [cov(X)]-1 cov(X, Y ). (10) Dôkaz: Pre ľubovoľnú náhodnú veličinu s konečným druhým momentom platí D() = E(2 ) - E2 (), preto E(Y - ^Y )2 = D(Y - ^Y ) + E2 (Y - ^Y ) D(Y - ^Y ) (rovnosť nastane práve ak E(Y - ^Y ) = 0, teda práve ak 0 = E(Y ) - E(X)) = D(Y -0- X) = D(Y - X) = D (1 ... - ) Y X = (1 ...- ) D(Y ) cov(Y, X) cov(X, Y ) cov(X) 1 - = 20 = D(Y )- cov(X, Y ) ...cov(Y, X)- cov(X) 1 = D(Y )- cov(X, Y )-cov(Y, X)+ cov(X) = = D(Y ) - [ - (cov(X))-1 cov(X, Y )] cov(X)[ - (cov(X))-1 cov(X, Y )] - cov(Y, X)(cov(X))-1 cov(X, Y ) (rovnosť nastane práve ak = [cov(X)]-1 cov(X, Y )) D(Y ) - cov(Y, X)[cov(X)]-1 cov(X, Y ). Q.E.D. Poznámka 4.2: Optimálna lineárna predikcia, t.j. lineárna predikcia s minimálnu strednekvadratickou chybou je ^Y = E(Y ) - E(X) + cov(Y, X)[cov(X)]-1 X. Pre túto predikciu platí 2 Y,X = E Y - E(Y ) - E(X) + cov(Y, X)[cov(X)]-1 X 2 = D(Y ) - cov(Y, X)[cov(X)]-1 cov(X, Y ) = = D(Y ) - cov(X). (11) 2 Y,X sa volá reziduálny rozptyl. Funkcia ^Y = E(Y ) - E(X) + cov(Y, X)[cov(X)]-1 X sa volá lineárna regresná funkcia. V prípade k = 1 je ^Y = E(Y ) cov(X, Y ) D(X) E(X) + cov(X, Y ) D(X) X = E(Y ) + X,Y D(Y ) D(X) (X - E(X)). Regresná priamka preto je ^y = E(Y ) + X,Y D(Y ) D(X) (x - E(X)) (x je realizácia X a ^y je realizácia ^Y ). Obyčajne teoretické (skutočné) hodnoty E(X), E(Y ), D(X), D(Y ), X,Y nepoznáme, ale použijeme ich odhady E(X) = X, E(Y ) = Y , D(X) = 1 n-1 n i=1(Xi - X)2 , D(Y ) = 1 n-1 n i=1(Yi - Y )2 , X,Y = n i=1(Xi-X)(Yi-Y ) n i=1(Xi-X)2 n j=1(Yj -Y )2 . Veta 4.3: Platí 0 2 Y,X D(Y ). Dôkaz: Obidve nerovnosti sú zrejmé zo vzťahu (11), prvá nerovnosť vyplýva z toho, že 2 Y,X je stredná hodnota nezápornej náhodnej veličiny. Q.E.D. Poznámka 4.4: Ak sú Y a X nekorelované, tak cov(Y, X) = 0, teda z (11) je 2 Y,X = D(Y ). Z (11) vyplýva, že vždy je 2 Y,X D(Y ), lebo [cov(X)]-1 je pozitívne definitná matica (ľahko sa o tom presvedčíme). Definícia 4.5: Nech cov(X) je regulárna matica. Koeficientom mnohonásobnej korelácie medzi Y a X nazývame korelačný koeficient (Y, ^Y ) a značíme Y,X, pričom ^Y je optimálne lineárna predikcia, teda ^Y = 0 + X, kde 0 = E(Y ) - E(X) a = [cov(X)]-1 cov(X, Y ). Ak D(Y ) = 0 alebo D( ^Y ) = 0, tak položíme Y,X = 0. Poznámka 4.6: D( ^Y ) = 0 cov(X) = 0 = 0. 21 Veta 4.7: Platí (i) Y,X 0. Ak 0 < D(Y ) < , tak (ii) 2 Y,X = cov(X) D(Y ) , (iii) 2 Y,X = cor(Y, X)[cor(X)]-1 cor(X, Y ), (iv) 2 Y,X = 1 - 2 Y,X D(Y ) . Dôkaz: (i) Ak je D(Y ) = 0 & = 0 alebo D(Y ) = 0 & = 0, tak priamo z definície (Y, ^Y ) = 0. Ak D(Y ) > 0 & = 0, tak podľa Poznámky 4.6 je D( ^Y ) = 0 a opäť z definície je (Y, ^Y ) = 0. Preto stačí uvažovať D(Y ) > 0, = 0. V tomto prípade Y,X = (Y, ^Y ) = cov(Y, 0 + X) D(Y )D(0 + X) = cov(Y, X) D(Y ) cov(X) = cov (1 ...0 ) Y X , (0 ... ) Y X D(Y ) cov(X) = = (1 ...0 ) D(Y ) cov(Y, X) cov(X, Y ) cov(X) 0 D(Y ) cov(X) = D(Y ) ...cov(Y, X) 0 D(Y ) cov(X) = = cov(Y, X)[cov(X)]-1 cov(X, Y ) D(Y ) cov(X) = cov(X) D(Y ) cov(X) > 0. (ii) Ak = 0, tak podľa Poznámky 4.6 je D( ^Y ) = 0 a z definície je Y,X = 0, ale takisto cov(X) = 0, teda (ii) platí. Ak = 0, tak (využijúc odvodzovanie v (i)) dostávame 2 Y,X = 2 (Y, ^Y ) = cov2 (Y, 0 + X) D(Y )D(0 + X) = {cov(Y, X)[cov(X)]-1 cov(X, Y )}2 D(Y ) cov(X) = = {cov(Y, X)[cov(X)]-1 cov(X)[cov(X)]-1 cov(X, Y )}2 D(Y ) cov(X) = [ cov(X)]2 D(Y ) cov(X) = cov(X) D(Y ) . (iii) Ak = 0, tak cov(X, Y ) = 0 ale aj cor(X, Y ) = 0, teda cor(Y, X)[cor(X)]-1 cor(X, Y ) = 0. Na druhej strane v tomto prípade podľa Poznámky 4.6 je D( ^Y ) = 0, teda 2 Y,X = 0. Ak = 0, tak podľa (ii) 2 Y,X = cov(X) D(Y ) = cov(Y, X)[cov(X)]-1 cov(X)[cov(X)]-1 cov(X, Y ) D(Y ) = cov(Y, X)[cov(X)]-1 cov(X, Y ) D(Y ) = = 1 D(Y ) cov(Y, X1) ... ... ...cov(Y, Xk) 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) -1 × [cov(X)]-1 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) -1 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) cov(X1, Y ) cov(X2, Y ) ... cov(Xk, Y ) 1 D(Y ) = = cor(Y, X)[cor(X)]-1 cor(X, Y ) (využijúc známy fakt, že pre regulárne matice A, B platí (ABA)-1 = A-1 B-1 A-1 ). 22 (iii) Podľa (11) pre reziduálny rozptyl platí 2 Y,X = D(Y ) - cov(Y, X)[cov(X)]-1 cov(X, Y ), čiže 2 Y,X = D(Y ) - cov(X). Keď vydelíme túto rovnicu nenulovou hodnotou D(Y ) dostaneme 2 Y,X D(Y ) = 1 - cov(X) D(Y ) a pomocou (ii) konečne dostávame 2 Y,X = 1 - 2 Y,X D(Y ) . Q.E.D. Poznámka 4.8: Obyčajne vyjadrujeme 2 Y,X pomocou prvkov korelačnej matice cor(Y, X) = 1 cor(Y, X) cor(X, Y ) cor(X) . Poznámka 4.9: (i) Ak Y, X sú nekorelované, tak = 0 a ^Y = E(Y ), čiže D( ^Y ) = 0 a preto 2 Y,X = 0, teda Y,X = 0. (ii) Ak ^Y je optimálna lineárna predikcia, teda ^Y = E(Y ) - E(X) + cov(Y, X)[cov(X)]-1 X a Y = ^Y , tak 2 Y,X = E(Y - ^Y )2 = 0 a podľa Vety 4.7 (iv) je 2 Y,X = 1, čiže aj Y,X = 1 (lebo podľa Vety 4.7 (i) je Y,X 0). (iii) Y,X je ukazovateľ (miera) štatistickej väzby (stochastickej väzby) medzi Y a X. (iv) 100 2 Y,X udáva v % variabilitu Y , ktorá sa dá vysvetliť variabilitou X. Veta 4.10: Nech 0 < D(Y) < . Potom platí Y,X = max dR1 0=bRk | (Y, d + b X)|, teda Y,X je maximálny korelačný koeficient (v absolútnej hodnote) medzi Y a ľubovoľnou lineárnou kombináciou d X + d. Dôkaz: Nech d R1 , 0 = b Rk . | (Y, d + b X)| = cov(1Y, d + b X) D(Y )b cov(X)b = cov(1Y, b X) D(Y )b cov(X)b = 1cov(Y, X)b D(Y ) b cov(X)b = = cov(Y, X)[cov(X)]-1 cov(X)b D(Y ) b cov(X)b = cov(X)b D(Y ) b cov(X)b . Maticu cov(X) faktorizujeme a píšeme cov(X) = BB , teda cov(X)b D(Y ) b cov(X)b = 1 D(Y ) b cov(X)b |(B ) (B b)| (použijeme Schwarzovu nerovnosť, podľa ktorej preľubovoľné dva vektory u, w Rk platí |u w| u u w w) 1 D(Y ) b cov(X)b BB b BB b = cov(X) D(Y ) = 2 Y,X = Y,X 23 (použili sme Vetu 4.7 (ii) a (i)). Príklad 4.11: Vyjadrite 2 Z.(X,Y ) pomocou "obyčajných" korelačných koeficientov.. Riešenie: Podľa Vety 4.7 (iii) platí 2 Z.(X,Y ) = cor(Z, X Y )[cor X Y ]-1 cor( X Y , Z) = ( Z,X , Z,Y ) 1 X,Y Y,X 1 -1 X,Z Y,Z = = 1 1 - 2 X,Y ( Z,X, Z,Y ) 1 - X,Y - X,Y 1 X,Z Y,Z = 2 Z,X + 2 Z,Y - 2 Z,X Z,Y X,Y 1 - 2 X,Y . (Použili sme vzorec a b b c -1 = 1 ac - b2 c -b -b a a ak X = X, tak 2 Y,X = 2 Y,X .) Teraz si zavedieme parciálny korelačný koeficient. Nech Y, Z, X1, ..., Xk sú náhodné veličiny na pravdepodobnostnom priestore (, A, P), majú konečné druhé momenty, D(Y ) = 0, D(Z) = 0 a cov(X) je regulárna. Cieľom je získať mieru štatistickej (stochastickej) väzby medzi Y a Z pri eliminácii vlyvu X = (X1, ..., Xk) ("očistenú závislosť"). V zhode s predchádzajúcim označením označme ^Y najlepšiu lineárnu predikciu Y pomocou X, ^Z najlepšiu lineárnu predikciu Z pomocou X, teda ^Y = 0 + X, kde 0 = E(Y ) - E(X) a = [cov(X)]-1 cov(X, Y ) a teda ^Z = 0 + X, kde 0 = E(Z) - E(X) a = [cov(X)]-1 cov(X, Z). Náhodné veličiny RY = Y - ^Y , RZ = Z - ^Z voláme rezíduá. Definícia Veta 4.11: Nech platia označenia a predpoklady z predchádzajúceho odstavca. Korelačný koeicient (RY , RZ) nazývame parciálnym korelačným koeficientom medzi Y a Z pri danom náhodnom vektore X (niekedy sa povie "pri eliminácii vplyvu náhodného vektora X"). Značíme ho Y,Z.X alebo Y,Z.X1,X2,...,Xk . Ak E(Y - ^Y )2 = D(Y - ^Y ) = 0 alebo E(Z - ^Z)2 = D(Z - ^Z) = 0 (teda ak Y,X = 1 alebo Z,X = 1), tak kladieme Y,Z.X = 0. Veta 4.12: Ak D(Y - ^Y ) = 0 a D(Z - ^Z) = 0, tak Y,Z.X = Y,Z - cor(Y, X)[cor(X)]-1 cor(X, Z) (1 - 2 Y,X)(1 - 2 Z,X) . (12) Dôkaz: Platí Y,Z.X = cov(Y - ^Y , Z - ^Z) D(Y - ^Y )D(Z - ^Z) . (13) Počítajme cov(Y - ^Y , Z - ^Z) = cov(Y - 0 - X, Z - 0 - X) = cov(Y - X, Z - X) = = cov (1 ...0 ... - ) Y Z X , (0 ...1 ... - ) Y Z X = = (1 ...0 ... - ) D(Y ) cov(Y, Z) cov(Y, X) cov(Z, Y ) D(Z) cov(Z, X) cov(X, Y ) cov(X, Z) cov(X) 0 1 - = 24 = D(Y ) - cov(X, Y ) ...cov(Y, Z) - cov(X, Z) ...cov(Y, X) - cov(X) 0 1 - = = cov(Y, Z) - cov(X, Z) - cov(Y, X) + cov(X) = = cov(Y, Z) - cov(Y, X)[cov(X)]-1 cov(X, Z) - cov(Y, X)[cov(X)]-1 cov(X, Z)+ + cov(Y, X)[cov(X)]-1 cov(X)[cov(X)]-1 cov(X, Z) = = D(Y )D(Z) Y,Z - 1 D(Y ) cov(Y, X1) ... ... ...cov(Y, Xk) 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) × 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) -1 [cov(X)]-1 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) -1 × 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) cov(X1, Z) cov(X2, Z) ... cov(Xk, Z) 1 D(Z) = = D(Y )D(Z) Y,Z - cor(Y, X)[cor(X)]-1 cor(X, Z) = cov(Y - ^Y , Z - ^Z). (14) Ďalej platí D(Y - ^Y ) = D(Y - 0 - X) = D(Y - X) = D (1 ... - ) Y X = = (1 ... - ) D(Y ) cov(Y, X) cov(X, Y ) cov(X) 1 - = = D(Y )- cov(X, Y ) ...cov(Y, X)- cov(X) 1 = D(Y )- cov(X, Y )-cov(Y, X)+ cov(X) = = D(Y ) - cov(Y, X)[cov(X)]-1 cov(X, Y ) = = D(Y ) 1 - 1 D(Y ) cov(Y, X1) ... ... ...cov(Y, Xk) 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) × 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) -1 [cov(X)]-1 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) -1 × 25 1 D(X1) 0 ... 0 0 1 D(X2) ... 0 ... ... ... ... 0 0 ... 1 D(Xn) cov(X1, Y ) cov(X2, Y ) ... cov(Xk, Y ) 1 D(Y ) = = D(Y ) 1 - cor(Y, X)[cor(X)]-1 cor(X, Y ) = D(Y )(1 - 2 Y,X) = D(Y - ^Y ). (15) (podľa Vety 4.7 (iii)) Úplne analogicky dostaneme D(Z - ^Z) = D(Z)(1 - 2 Z,X). (16) Dosadením (14), (15) a (16) do (13) ľahko dostaneme Y,Z.X = Y,Z - cor(Y, X)[cor(X)]-1 cor(X, Z) (1 - 2 Y,X)(1 - 2 Z,X) . Q.E.D. Poznámka 4.13: K výpčtu Y,Z.X potrebujeme vedieť Y,Z, Y,Xj , Xi,Xj , Z,Xj , i = 1, 2, ..., k, j = 1, 2, ..., k. Poznámka 4.14: Medzi Y,Z.X a Y,Z nie je žiaden (všeobecný) vzťah. Príklad 4.15: Vyjadrite Z.(X,Y ) pomocou "obyčajných" korelačných koeficientov. Riešenie: Podľa (12) platí Y,Z.X = Y,Z - Y,X Z,X (1 - 2 Y,X )(1 - 2 Z,X ) . 5 Lineárny regresný model Príklad 5.1: Merajme neznámu ďlžku stola n-krát nezávisle s meradlami "rovnakej kvality", teda rovnakej (neznámej) štandardnej neistoty (smerodajná odchýlka meradla). Merania modelujeme náhodnými veličinami Y1, Y2, ...Yn, E(Yi) = - meracie prístroje sú bez systematickej chyby. To znamená, skutočne namerané hodnoty (čísla) y1, y2, ..., yn sú realizáciami náhodných veličín Y1, Y2, ...Yn. "Celé" meranie modelujeme observačným (pozorovaným) náhodným vektorom (vektorom meraní) Y = (Y1, ..., Yn) , ktorého stredná hodnota je E(Y) = 1 a kovariančná matica je 2 I, teda modelujeme ho "trojicou" (Y, 1, 2 I). Poznámka 5.2: V skutočnosti meráme tým istým meracím prístrojom, čo spôsobuje "závislosť" medzi meraniami. Štandardnú neistotu 2 meracieho prístroja môžeme poznať (napríklad z certifikátu prístroja), ale nemusíme poznať. Reálny prístroj nie je bez systematickej chyby. Náš jednoduchý model merania nie je úplne dokonalý (je to len určité priblíženie reality). Príklad 5.3: (Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 104.) Merajme medenú trubku (nominálnej ďlžky L0 = 1000mm pri 200 C) postupne pri 300 C, 400 C, 500 C, 600 C, 700 C, 800 C. Vysledky meraní sú t (zmena teploty) 100 C 200 C 300 C 400 C 500 C 600 C preďlženie L [mm] 0,18 0,35 0,48 0,65 0,84 0,97 26 Zákon rozťažnosti (z fyziky) tvrdí, že L = L0t, kde je koeficient tepelnej rozťažnosti (pre daný materiál), teda Y1 = L010 + 1 Y2 = L020 + 2 ... Y6 = L060 + 6, pričom predpokladáme, že 1, ..., n sú nezávislé, E(i) = 0, i = 1, 2, ..., 6 a D(i) = 2 , i = 1, 2, ..., 6. Vektor observácií Y6,1 má strednú hodnotu L010 L020 ... L060 = X (X je známa matica a neznámy parameter, ktorého hodnota nás zaujíma). Kovariančná matica cov(Y) = 2 I6,6. Teda "celé" meranie modelujeme "trojicou" (Y, X, 2 I). Príklad 5.4: (Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 111.) U automobilu Trabant sa merala spotreba paliva (v litroch/100 km) v závislosti na jeho rýchlosti (pri stále zaradenom 4. rýchlostnom stupni, aby boli rovnaké podmienky jazdy). Rýchlosť považujeme za bezchybne určenú. Konkrétne namerané spotreby y1, ..., y7 považujeme za realizácie náhodných veličín Y1, ..., Y7, pričom spotreba je (podľa vyjadrenia odborníkov) kvadratickou funkciou rýchlosti. Merania spotreby modelujeme ako Yi = a + bxi + cx2 i + i, i = 1, 2, ..., 7, kde xi je rýchlosť pri ktorej sa namerala spotreba yi - realizácia náhodnej veličiny Yi. Keby sme merali bezchybne, spotreba pri rýchlosti xi by bola vždy a + bxi + cx2 i . Náhodné veličiny i sú náhodné chyby. O nich predpokladáme, že sú nezávislé, majú nulovú strednú hodnotu a rovnakú disperziu 2 . Namerané hodnoty sú rýchlosť (km/hod) 40 50 60 70 80 90 100 spotreba [l] 6,1 5,8 6,0 6,5 6,8 8,1 10,0 Observačný vektor (vektor meraní) Y7,1 = Y1 Y2 ... Y7 má strednú hodnotu 1 x1 x2 1 1 x2 x2 2 ... ... ... 1 x7 x2 7 a b c = X, pričom X je známa (pevná) matica a je vektor neznámych parametrov, ktoré nás zaujímajú. Kovariančná matica observačného vektora je cov(Y) = 2 I, teda "celé" meranie zase modelujeme "trojicou" (Y, X, 2 I). Príklad 5.5: (Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 113.) Majme dvojrozmernú náhodnú premennú X = (X, Y ) , kde X -počet detí v rodine, Y -výdavky na stravu v rodine. Namerané hodnoty sú počet detí 2 0 2 3 1 2 výdavky na stravu v tis. 4 3 4 6 4 5 27 Môžeme predpokladať (napríklad z "vynesenia" bodov (xi, yi)), že náhodná veličina Y/X = x má strednú hodntu E(Y/X = x) = a + bx. Teda hodnotu 4 tis. môžeme považovať za realizáciu náhodnej premennej Y/X = 2, atď. V takomto prípade môžeme napísať model merania ako Y/X = xi = a + bxi + i, i = 1, 2, ..., 6, kde nezávislé chyby 1, ..., 6 majú nulové stredné hodnoty a (predpokladajme) rovnaké disperzie 2 . Observačný vektor (vektor meraní) Y7,1 = Y1 = Y/X = x1 Y2 = Y/X = x2 ... Y7 = Y/X = x7 má strednú hodnotu 1 2 1 0 ... ... 1 2 a b = X, pričom zase X je známa (pevná) matica a je vektor neznámych parametrov, ktoré nás zaujímajú. Kovariančná matica observačného vektora je cov(Y) = 2 I, teda "celé" meranie opäť modelujeme "trojicou" (Y, X, 2 I). Poznámka 5.6: Ak môžeme považovať v predchádzajúcom príklade náhodný vektor (X, Y ) za normálne rozdelený, teda X Y N2 X Y , V , V je regulárna, tak priamo z teórie vychádza Y/X = x N(a + bx, 2 ) (pozri (6) a odvoďte, že a = Y - X D(Y ) D(X) , b = D(Y ) D(X) , 2 = D(Y )(1 - 2 )). Príklad 5.7: Majme body A(1, 2), B(0, 00; 0, 00) C(2365, 22; 0, 00), D(3603, 67; 823, 35) v rovine. Meriame vzdialenosti AB, AC, AD a chceme zistiť (odhadnúť) súradnice 1 a 2 bodu A. Popíšte model merania. Platí AB = (1 - 0)2 + (2 - 0)2 AC = (1 - 2365, 22)2 + (2 - 0)2 AD = (1 - 3603, 67)2 + (2 - 823, 35)2. Odmeriame AB, teda realizujeme Y1 a nameráme y1 = 1980, 102; odmeriame AC, teda realizujeme Y2 a nameráme y2 = 2040, 243; a odmeriame AD, teda realizujeme Y3 a nameráme y3 = 2598, 897. Z rovníc 1980, 102 = 2 1 + 2 2 2040, 243 = (1 - 2365, 22)2 + 2 2 vypočítame "približné" hodnoty 0 1 = 1131, 5; 0 2 = 1625, 0. (Na výpočet približných hodnôt môžeme použiť ľubovoľné dve rovnice.) Teraz (nelineárne) vzdialenosti linearizujeme okolo približných hodnôt pomocou Taylorovej vety, t.j. AB (0 1)2 + (0 2)2 + (AB) 1 0 1 ,0 2 1 (1 - 0 1) + (AB) 2 0 1 ,0 2 2 (2 - 0 2) = = 1980, 131 + 0 1 - 0 (0 1)2 + (0 2)2 1 + 0 2 - 0 (0 1)2 + (0 2)2 2 = = 1980, 131 + 1131, 5 1980, 131 1 + 1625 1980, 131 2 = 1980, 131 + 0, 5711 + 0, 8212. 28 Podobne dostaneme AC 2040, 267 - 0, 6051 + 0, 7962 AD 2598, 897 - 0, 9511 + 0, 3082. Tentokrát máme 3 merania, a síce Y1 -meranie AB, Y2 -meranie AC, Y3 -meranie AD. Náhodný vektor W = Y1 Y2 Y3 - 1980, 131 2040, 267 2598, 897 má strednú hodnotu 0, 571 0, 821 -0, 605 0, 796 -0, 951 0, 308 1 2 = X a kovariančnú maticu 2 I. Modelom "celého" merania je opäť (W, X, 2 I). V každom z predchádzajúcich príkladov sme pri matematicko-štatistickom modelovaní reálnej situácie dostali náhodný vektor (meraní, pozorovaní), ktorého stredná hodnota bola X, pričom X je známa matica a vektor neznámych parametrov, ktoré nás zaujímali (chceli by sme ich "odhadnúť" (zistiť)). Kovariančná matica náhodného vektora meraní bola známa, alebo v tvare 2 × známa matica. Takýto model sa nazýva lineárny regresný model (LRM), alebo aj lineárny model, regresný model, model lineárnej regresie. Dospeli sme k nasledujúcej definícii. Definícia 5.8: Povieme, že náhodný vektor Y sa riadi lineárnym reresným modelom s maticou plánu X (známa matica), vektorom chýb , vektorom (neznámych) parametrov , ak Y = X + , pričom 1. E() = 0, 2. cov(Y) = cov() = V, resp. 2 H (V resp. H sú známe pozitívne semidefinitné matice, skalárny faktor 2 kovariančnej matice môžeme, ale nemusíme poznať). Neexistuje funkčný vzťah medzi a 2 . Model značíme LRM (Y, X, V). Ak h(Xn,k) = k < n a V je pozitívne definitná (regulárna) matica, tak model sa nazýva regulárny regresný model alebo model plnej hodnosti. Inak to je model neúplnej hodnosti. V tejto celej prednáške (celý semester) budeme uvažovať LRM (Yn,1, Xn,kk,1, 2 In,n) plnej hodnosti. Úlohou, cieľom je odhadnúť (určiť) neznáme parametre (strednej hodnoty) modelu. Odhadujeme ich metódou najmenších štvorcov (metoda nejmenších čtverců-MN Č). Sú to také ^1(Y), ..., ^k(Y), ktoré minimalizujú výraz S() = S(1, ..., k) = n i=1 (Yi - k j=1 xijj)2 = ||Y - X||2 . Teda MNČ odhad parametrov v LRM (Yn,1, Xn,kk,1, 2 In,n) plnej hodnosti je ^ = arg min Rk S() a preto S(^) = min Rk S() = min Rk ||Y - X||2 . Veta 5.9: Nech (Yn,1, Xn,kk,1, 2 In,n) je LRM plnej hodnosti. Odhad ^ parametrov metódou najmenších štvorcov je ekvivalentný riešeniu normálnych rovníc X X = X Y, teda ^ = (X X)-1 X Y. 29 Dôkaz: Podľa Vety 3.6 je M(X ) = M(X X), teda k = h(X) = h(X ) = h(X X). Pretože matica X X je rozmeru k × k a aj hodnosť má rovnú k, je ro regulárna matica a existuje (X X)-1 . Normálne rovnice majú jediné riešenie. Ak označíme riešenie normálnych rovníc ^, tak X (Y - X^) = 0 a pre ľubovoľné Rk S(^) = ||Y - X||2 = (Y - X) (Y - X) = = (Y - X^ + X^ - X) (Y - X^ + X^ - X) = = (Y - X^) (Y - X^) + (Y - X^) X 0 (^ - ) + (^ - ) X (Y - X^) 0 +(^ - ) X X p.d.matica (^ - ) (Y - X^) (Y - X^), teda ||Y - X^||2 = min Rk ||Y - X||2 . Naopak, ak hľadáme minimum S(^), tak v tomto minime nutne S() m = 0, m = 1, 2, ..., k. Pretože S() m = m n i=1 (Yi - k j=1 xijj)2 =^ = n i=1 2(Yi - k j=1 xijj)(-xim) =^ = 0, i = 1, 2, ..., k, tak nutne n i=1 (Yi - k j=1 xij ^j)(xim) = 0, m = 1, 2, ..., k, čo môžeme písať (Y1 - k j=1 x1j ^j)(x1m) + (Y2 - k j=1 x2j ^j)(x2m) + ... + (Yn - k j=1 xnj ^j)(xnm) = 0, m = 1, 2, ..., k, alebo aj (Y - X^) {X}ˇm = 0, m = 1, 2, ..., k., Dostávame postupne (Y - X^) X = (0, 0, ..., 0)1,k = 0 Y X - ^ X X = 0 X Y - X X^ = 0 ^ = (X X)-1 X Y. Q.E.D. Poznámka 5.10: MNČ odhad ^ parametrov je odhadom lineárnym, lebo jeho zložky sú lineárne funkcie (observačného) náhodného vektora Y, ktorý máme k dispozícii pre odhadnutie parametrov . Poznámka 5.11: Pretože X X^ = XY X (Y - X^) = 0 Y - X^ M(X) t.j. Y - X^ {X}ˇi, i = 1, 2, ..., k, dostávame, že ||Y - X^||2 = min Rk ||Y - X||2 Y - X^ M(X). Geometricky je v Rn náhodný vektor X^ ležiaci v M(X) ortogonálnou projekciou observačného (náhodného) vektora Y na M(X), t.j. má od Y minimálnu vzdialenosť. 30 Odhad získaný metódou najmenších štvorcov je odhad získany optimalizačnou (numerickou) metódou. Vôbec sme pri jeho hľadaní neuvažovali o jeho pravdepodobnstných (štatistických) vlastnostiach. Vieme, že ak máme náhodný vektor Y = (Y1, ..., Yn) , ktorého rozdelenie pravdepodobnsti závisí od (neznámych) parametra k,1, tak odhad (bodový) tohto parametra je (ľubovoľné) merateľné zobrazenie g : Rn Rk (ktorého predpis nezávisí od ) také, že náhodný vektor (niekedy sa používa názov štatistika) ^ = g(Y) v nejakom "rozumnom zmysle" aproximuje neznámy vektor paramerov k,1. Majme ľubovoľný (pevný) vektor c Rk . = c je (lineárna) parametrická funkcia vektora . Ak máme m (pevných) vektorov c1, c2, ..., cm Rk , tak C = c1 c2 ... cm m,k a () = C = 1() 2() ... m() je vektorová parametrická funkcia. Definícia 5.11: Povieme, že vektorová štatistika (náhodný vektor) T = T1 ... Tm = T(Y) = T1(Y) ... Tm(Y) je najlepší nevychýlený (nestranný) lineárny odhad - NNLO vektorovej parametrickej funkcie = c1 ... cm = = () = C ak (i) T = Lm,nY, kde L je reálna matica (linearita odhadu), (ii) E(T) = () pre každé Rk (nevychýlenosť odhadu), (iii) ak T je iný lineárny nevychýlený odhad parametrickej funkcie , tak cov(T )-cov(T) je pozitívne semidefintná matica (niekedy sa píše cov(T ) - cov(T) 0). Veta 5.12: Majme LRM (Y, X, 2 I) plnej hodnosti a ^ = (X X)-1 X Y je MNČ odhad parametrov . Potom platí (i) E(^) = pre každé Rk (MNČ odhad je nevychýlený) (ii) cov(^) = 2 (X X)-1 . Dôkaz: (i) E(^) = E (X X)-1 X Y = (X X)-1 X X = pre každé Rk , (ii) cov(^) = cov (X X)-1 X Y = (X X)-1 X 2 IX(X X)-1 = 2 (X X)-1 . Q.E.D. Veta 5.13: V LRM (Y, Xn,k, 2 I) plnej hodnosti je ^ = Cm,k ^ NNLO vektorovej parametrickej funkcie = C , pričom ^ = (X X)-1 X Y je MNČ odhad parametrov . Dôkaz: C ^ = C (X X)-1 X Y je lineárny odhad, pričom E C ^ = E C (X X)-1 X Y = C (X X)-1 X X = C Rk , 31 teda je nevychýlený. Nech = L Y je ľubovoľný nevychýlený odhad vektorovej parametrickej funkcie , tak E (L Y) = L X = C Rk L X = C . cov( ) - cov(^) = L 2 I(L ) - C (X X)-1 X 2 IX(X X)-1 C = 2 L (L ) - 2 C L X (X X)-1 C X (L ) = = 2 L (I - X(X X)-1 X )(L ) 0, lebo I - X(X X)-1 X je symetrická a idempotentná, teda pozitívne semidefinitná matica. Teda ^ = C ^ je NNLO vektorovej parametrickej funkcie = C . Q.E.D. Poznámka 5.14: Ak v predchádzajúcej vete C = ei, tak ^i = ei(X X)-1 X Y je NNLO parametra i. Definícia 5.15: Reziduálny súčet štvorcov je náhodná veličina Se(^) = (Y - X^) (Y - X^). Je to miera kvality odhadu v danom LRM. Veta 5.16: Platí Se = Y (I - X(X X)-1 X )Y = Y Y - Y X^. Dôkaz: Se = (Y - X^) (Y - X^) = (Y - X(X X)-1 X Y) (Y - X(X X)-1 X Y) = = Y (I - X(X X)-1 X ) (I - X(X X)-1 X )Y = Y (I - X(X X)-1 X )Y = Y Y - Y X^. Q.E.D. Veta 5.17: Štatistika s2 = 1 n - k Se = 1 n - k Y (I - X(X X)-1 X )Y je nevychýleným odhadom 2 . Dôkaz: Podľa Vety 1.5 dostávame E(s2 ) = E Y 1 n - k (I - X(X X)-1 X ) Y = = X 1 n - k (I - X(X X)-1 X ) X + Tr 1 n - k (I - X(X X)-1 X ) 2 I = = 2 n - k Tr(I - X(X X)-1 X ) = 2 n - k (n - TrX X(X X)-1 ) = 2 . Q.E.D. Poznámka 5.18: Náhodný vektor ^Y = X^ je "aproximáciou" bezchybných meraní, teda NNLO vektora stredných hodnôt X, čiže ^Y = X. Niekedy sa mu hovorí vektor vyrovnaných hodnôt. Definícia 5.19: Vektor Y - ^Y = r voláme vektor rezíduí alebo reziduálny vektor. Jeho i-tu zložku (súradnicu) voláme i-te rezíduum. Poznámka 5.20: Rezíduá sú jedným z prostriedkov diagnostikovania modelu, teda posúdenia vhodnosti modelovania nameraných údajov daným modelom. Keď si nakreslíme graf rezíduí, t.j. body (i, ri) (tu ri je hodnota (realizácia) i-teho rezídua), tak táto postupnosť nesmie vykazovať pri správnej voľbe modelu žiadnu systematičnosť . 32 Doteraz sme nič nepredpokladali o rozdelení pravdepodobnosti observačného (náhodného) vektora Y. Pri ďalších štatistických inferenciách (odvodzovaniach) budeme predpokladať, že Y Nn(X, 2 I), čo je to isté ako predpoklad Nn(0, 2 I). Veta 5.21: Majme LRM (Y, Xn,k, 2 I) plnej hodnosti a Nn(0, 2 I). Potom platí (i) ^ Nk(, 2 (X X)-1 ), (ii) n - k 2 s2 = Se 2 2 n-k, (iii) ^ a s2 sú nezávislé. Dôkaz: (i) Z predpokladov platí Y Nn(X, 2 I). Pretože ^ = (X X)-1 X Y, podľa Vety 2.6 je ^ Nk(, 2 (X X)-1 ). (ii) Náhodná veličina n - k 2 s2 = Y 1 2 (I - X(X X)-1 X ) Y = (Y - X) 1 2 (I - X(X X)-1 X ) (Y - X) = = (Y - X) A(Y - X) je kvadratickou formou náhodného vektora (Y - X) Nn(0, 2 I) s maticou kvadratickej formy A. Pretože platí, že A = 1 2 (I - X(X X)-1 X ) je symetrická, pozitívne semidefinitná, A2 I = 0, A2 IA2 I = A2 I, podľa Vety 3.14 n - k 2 s2 2 T rA2I. Ale TrA2 I = Tr(I-X(X X)-1 X ) = n - k, teda n - k 2 s2 2 n-k. (iii) Platí, že ^ = (X X)-1 X Y = BY, s2 = Y 1 n - k (I - X(X X)-1 X ) Y, pričom 1 n - k (I - X(X X)-1 X ) je symetrická a pozitívne semidefinitná a Y Nn(X, 2 I). Pretože B2 I 1 n - k (I - X(X X)-1 X ) = 2 n - k (X X)-1 X (I - X(X X)-1 X ) = 0, podľa Vety 3.15 sú ^ a s2 nezávislé. Q.E.D. Nech c Rk je daný vektor, teda majme parametrickú funkciu = c . Veta 5.22: Majme LRM (Y, Xn,k, 2 I) plnej hodnosti, Nn(0, 2 I) a = c (funkciu parametrov). Nech ^ je MNČ odhad vektora . Potom T = c ^ - c s c (X X)-1c tn-k, ak c = 0. Dôkaz: Pretože c ^ N(c , 2 c (X X)-1 c), je c ^ - c c (X X)-1c N(0, 1). Podľa Vety 5.21 (ii) n - k 2 s2 = Se 2 2 n-k a podľa Vety 5.21 (iii) sú ^ a s2 sú nezávislé, teda aj c ^ (ako fukcia ^) a s2 sú nezávislé. Potom ale (priamo z definície Studentovho t-rozdelenia) T = c ^ - c c (X X)-1c (n-k)s2 2 n - k = c ^ - c s c (X X)-1c tn-k. Q.E.D. Z Vety 5.22 vyplýva, že pre dané (0, 1) P tn-k 2 c ^ - c s c (X X)-1c tn-k 1 - 2 = 1 - , (17) kde tg() je -kvantil Studentovho t rozdelenia s g stupňami voľnosti. Teda ak náhodná veličina T tg (T má Studentovo t rozdelenie pravdepodobnosti s g stupňami voľnosti), tak tg() je také číslo, pre ktoré platí 33 P{T < tg()} = . Upozorňujeme len, že v niektorej literatúre (napr. v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985) sa pracuje (na rozdiel od tohto textu) s kritickými hodnotami a nie s kvantilmi. Zo vzťahu (17) úpravami dostaneme P tn-k 2 s c (X X)-1c c ^ - c tn-k 1 - 2 s c (X X)-1c = 1 - , P c ^ - tn-k 1 - 2 s c (X X)-1c c c ^ + tn-k 1 - 2 s c (X X)-1c = 1 - (lebo pre kvantily Studentovho rozdelenia platí tg() = -tg(1 - )) a teda 100(1 - )%-ný interval spoľahlivosti (konfidenčný interval) pre = c je c ^ - tn-k 1 - 2 s c (X X)-1c, c ^ + tn-k 1 - 2 s c (X X)-1c . (18) Vetu 5.22 použijeme pri testovaní hyptézy o hodnote lineárnej funkcie = c. Majme LRM (Y, Xn,k, 2 I) plnej hodnosti, pričom Nn(0, 2 I), (2 nepoznáme), ^ = (X X)-1 X Y (MNČ odhad). Ďalej majme danú = c (lineárna funkcia parametrov ). Test hypotézy H0 : c = 0 (dané číslo) >< H1 : c = 0 (19) realizujeme pomocou testovacej štatistiky T0 = c ^ - 0 s c (X X)-1c tn-k (za platnosti H0). Ak |T0| tn-k 1 - 2 = H0 zamietame, ak |T0| < tn-k 1 - 2 = H0 nezamietame. Podľa Vety 5.22 má tento test hladinu významnosti . Dôležité špeciálne prípady testu (19) sú testy o hodnote jednotlivých zložiek vektora parametrov. Pretože j = ej, j = 1, 2, ..., k, ak v teste (19) za c vezmeme ej a za 0 vezmeme 0 j (dané číslo), dostávame nasledujúci test. Test hypotézy H0 : j = 0 j (dané číslo) >< H1 : j = 0 (20) realizujeme pomocou testovacej štatistiky T0j = ^j - 0 j s {(X X)-1}jj tn-k (za platnosti H0). Ak |T0j| tn-k 1 - 2 = H0 zamietame na hladine významnosti , ak |T0j| < tn-k 1 - 2 = H0 nezamietame na hladine významnosti . 34 Z (18) (pri voľbe c = ej) okamžite dostávame, že 100(1 - )%-ný interval spoľahlivosti (konfidenčný interval) pre j je ^j - tn-k 1 - 2 s {(X X)-1}jj, ^j + tn-k 1 - 2 s {(X X)-1}jj . (21) Ak j = 0, tak môžeme "vynechať" j-ty st´lpec matice plánu, teda dostaneme jednoduchší model (s menej parametrami). Vektor Y nezáleží od parametra j. Teraz si odvodíme (1 - )-tolerančný interval pre náhodnú veličinu (meranie) Yc = c + , ktorá má (skutočnú) strednú hodnotu (bezchybnú hodnotu) c , disperziu 2 a je nezávislá od Y1, ..., Yn. (1 - )-tolerančný interval pre Yc = c + je náhodný interval (Dc, Hc), pre ktorý platí P{Yc (Dc, Hc)} = 1 - . Náhodná veličina ~Yc = c ^ - , pričom MNČ odhad ^ a náhodná chyba N(0, 2 ) sú nezávislé, má strednú hodnotu E( ~Yc) = c a disperziu D( ~Yc) = 2 c (X X)-1 c + 2 , čiže ~Yc N c , 2 (c (X X)-1 c + 1) . Podľa Vety 5.21 (iii) sú s2 = 1 n-k Y (I - X(X X)-1 X )Y) a MNČ odhad ^ nezávislé a je nezávislá s Y (teda aj s funkciami Y, čo sú s2 aj ^). Náhodná veličina c ^ - c c (X X)-1c má N(0, 1) rozdelenie, a je nezávislá s n - k 2 s2 , ktorá má 2 n-k rozdelenie. Potom ale ~Yc - c c (X X)-1c + 1 n - k 2 s2 n - k = ~Yc - c s c (X X)-1c + 1 = c ^ - - c s c (X X)-1c + 1 tn-k, čiže P -tn-k 1 - 2 c ^ - - c s c (X X)-1c + 1 tn-k 1 - 2 = 1 - , P -tn-k 1 - 2 s c (X X)-1c + 1 - c ^ -c - tn-k 1 - 2 s c (X X)-1c + 1 - c ^ = 1-, odkiaľ dostávame P c ^ - tn-k 1 - 2 s c (X X)-1c + 1 Yc c + c ^ + tn-k 1 - 2 s c (X X)-1c + 1 = 1 - . Preto (1 - )-tolerančný interval pre Yc, c Rk je c ^ - tn-k 1 - 2 s c (X X)-1c + 1, c ^ + tn-k 1 - 2 s c (X X)-1c + 1 . (22) 35 Poznámka 5.23: Ak za c zvolíme (xi1, xi2, ..., xik) = {X }iˇ, tak z (22) dostaneme (1 - )-tolerančný interval pre nové (nezávisle zopakované) meranie Yi. Ak m {1, 2, ..., k - 1}, rozdeľme na 2 časti, a síce na 1 = 1 2 ... m , 2 = m+1 m+2 ... k , pričom = 1 2 a analogicky rozdeľme ^1 ^2 a S = (X X)-1 = S11 S12 S21 S22 . Veta 5.24: Majme LRM (Y, Xn,k, 2 I) plnej hodnosti, Nn(0, 2 I). Potom F = (^2 - 2) S-1 22 (^2 - 2) (k - m)s2 Fk-m,n-k. Dôkaz: Podľa Vety 5.21 sú ^ a n - k 2 s2 nezávislé, teda aj ^2 a n - k 2 s2 sú nezávislé, pričom Se 2 2 n-k. Pomocou tvrdenia Vety 2.6 a analogickým postupom ako v dôkaze Vety 2.7 ľahko ukážeme, že ^2 Nk-m(2, 2 S22). Z toho vyplýva podľa Vety 3.13, že (^2 - 2) 1 2 S-1 22 (^2 - 2) 2 k-m. (Upozorňujeme len, že podľa Dôkazu Vety 5.9 existuje (X X)-1 (samozrejme regulárna) a podľa Lemy 2.14 (i) je S22 tiež regulárna.) Preto F = (^2-2) 1 2 S-1 22 (^2-2) k-m (n - k)s2 2 n - k = (^2 - 2) S-1 22 (^2 - 2) (k - m)s2 Fk-m,n-k. Q.E.D. Poznámka 5.25: Veta 5.24 platí aj pre m = 0, teda pre 2 = . Test hypotézy H0 : 2 = 0 2 (daný vektor) >< H1 : 2 = 0 2 (23) realizujeme pomocou testovacej štatistiky F0 = (^2 - 0 2) S-1 22 (^2 - 0 2) (k - m)s2 Fk-m,n-k (za platnosti H0). Ak F0 s2 (k - m)Fk-m,n-k(1 - ) = H0 zamietame, ak F0 < s2 (k - m)Fk-m,n-k(1 - ) = H0 nezamietame, pričom Fk-m,n-k(1 - ) je (1 - ) kvantil Fisherovho-Snedecorovho F rozdelenia s k - m a n - k stupňami voľnosti. Podľa Vety 5.24 má tento test hladinu významnosti . Poznámka 5.26: Z Vety 5.24 dostávame, že P (^2 - 2) S-1 22 (^2 - 2) (k - m)s2 Fk-m,n-k(1 - ) = 1 - , teda P (^2 - 2) S-1 22 (^2 - 2) s2 (k - m)Fk-m,n-k(1 - ) = 1 - . (24) 36 Vzťahom (24) je určená (1 - )100%-ná konfidenčná oblasť (oblasť spoľahlivosti, konfidenčný elipsoid), ktorý s pravdepodobnosťou 1 - pokrýva (neznámy) vektor 2. Poznámka 5.27: Nie je podstatné delenie na 1 2 , môžeme vziať 1 = i1 i2 ... im , 2 = j1 j2 ... jk-m , aby {1, 2, ..., k} = {i1, i2, ..., im} {j1, j2, ..., jk-m}. Špeciálne regresné modely a) Jednovýberový t-test. Majme náhodný výber Y1, ..., Yn z N(, 2 ) rozdelenia, ani 2 nepoznáme. LRM je Y = Y1 Y2 ... Yn = 1 + , cov() = 2 I. MNČ odhad ^ = (1 1)-1 1 Y = Y , s2 = 1 n - 1 Y (I - 1(1 1)-1 1 )Y = 1 n - 1 n i=1(Yi - Y )2 (dokážte ako cvičenie). Keď aplikujeme Vetu 5.22 a zvolíme c = 1, 0 = 0 (dané číslo), dostávame: Test hypotézy H0 : = 0 (dané číslo) >< H1 : = 0 (25) realizujeme pomocou testovacej štatistiky T0 = 1^ - 10 s 1 1 n 1 = Y - 0 s tn-1 (za platnosti H0). Ak |T0| tn-1 1 - 2 = H0 zamietame, ak |T0| < tn-1 1 - 2 = H0 nezamietame. Podľa Vety 5.22 má tento test hladinu významnosti . b) Dvojvýberový t-test. Majme náhodný výber Y1 = (Y11, ..., Y1n1 ) z N(1, 2 ) rozdelenia a nezávislý s ním náhodný výber Y2 = (Y21, ..., Y2n2 ) z N(2, 2 ) rozdelenia. LRM je Yn1+n2,1 = Y1 Y2 = 1n1,1 0n1,1 0n2,1 1n2,1 1 2 + 1 2 , cov(Y) = cov 1 2 = 2 In1+n2,n1+n2 . 37 Matica plánu X = 1n1,1 0n1,1 0n2,1 1n2,1 . Presvedčte sa, že platí X X = n1 0 0 n2 , (X X)-1 = 1 n1 0 0 1 n2 , X Y = n1 i=1 Y1i n2 i=1 Y2i , ^1 ^2 = Y 1 Y 2 , s2 = 1 n1 + n2 - 2 n1 i=1 Y 2 1i - n1Y 2 1 + n2 j=1 Y 2 2j - n2Y 2 2 . Keď aplikujeme Vetu 5.22 a zvolíme c = (1, -1) a 0 = 0, dostávame: Test hypotézy H0 : 1 = 2 >< H1 : 1 = 2 (26) realizujeme pomocou testovacej štatistiky T0 = Y 1 - Y 2 s (1, -1) 1 n1 0 0 1 n2 1 -1 = Y 1 - Y 2 s n1 + n2 n1n2 tn1+n2-2 (za platnosti H0). Ak |T0| tn1+n2-2 1 - 2 = H0 zamietame, ak |T0| < tn1+n2-2 1 - 2 = H0 nezamietame. Podľa Vety 5.22 má tento test hladinu významnosti . c) Zovšeobecnenie na k výberov Majme náhodný výber Y1 = (Y11, ..., Y1n1 ) z N(1, 2 ) rozdelenia, náhodný výber Y2 = (Y21, ..., Y2n2 ) z N(2, 2 ) rozdelenia, ... náhodný výber Yk = (Yk1, ..., Yknk ) z N(k, 2 ) rozdelenia. Všetky výbery sú nezávislé. Testujeme H0 : 1 = 2 = ... = k. Je to úloha analýzy rozptylu, budeme sa ňou zaoberať v prednáške LSM 2. d) Regresná priamka. Majme nezávislé náhodné veličiny (merania) Y1, ..., Yn, pre ktoré platí Yi = 0 + 1xi + i, i = 1, 2, ..., n, n 3. (Bezchybné merania ležia na priamke y = 0 + 1x, hodnoty xi, i = 1, 2, ..., n poznáme bezchybne (úplne presne)). LRM je Yn,1 = 1 x1 1 x2 ... ... 1 xn 0 1 + n,1 = X 0 1 + , cov(Y) = cov() = 2 In,n. Opäť sa presvedčte, že platí X X = n n i=1 xi n i=1 xi n i=1 x2 i , (X X)-1 = 1 n n i=1 x2 i - ( n i=1 xi)2 n i=1 x2 i - n i=1 xi - n i=1 xi n , 38 ^ = (X X)-1 X Y = 1 n n i=1 x2 i - ( n i=1 xi)2 n i=1 x2 i - n i=1 xi - n i=1 xi n n i=1 Yi n i=1 xiYi , preto ^0 = n i=1 x2 i n i=1 Yi - n i=1 xi n i=1 xiYi n n i=1 x2 i - ( n i=1 xi)2 , (27) ^1 = n n i=1 xiYi - n i=1 xi n i=1 Yi n n i=1 x2 i - ( n i=1 xi)2 = n i=1(xi - x)(Yi - Y ) n i=1(xi - x)2 . (28) Pretože platí (tiež sa presvedčte výpočtom) ^0 + ^1x = Y , (29) obyčajne sa najprv spočíta ^1 a potom ^0 = Y - ^1x = 1 n { n i=1 Yi - ^1 n i=1 xi}. Ešte potrebujeme s2 = 1 n - 2 (Y Y - ^ X Y) = 1 n - 2 n i=1 Y 2 i - ^0 n i=1 Yi - ^1 n i=1 xiYi . (30) Keď aplikujeme Vetu 5.22 a zvolíme c = (0, 1) , 0 = 0 (dané číslo), dostávame: Test hypotézy H0 : 1 = 0 (dané číslo) >< H1 : 1 = 0 (31) realizujeme pomocou testovacej štatistiky T = ^1 s n i=1 x2 i - nx2 tn-2 (za platnosti H0). Ak |T| tn-2 1 - 2 = H0 zamietame, ak |T| < tn-2 1 - 2 = H0 nezamietame. Podľa Vety 5.22 má tento test hladinu významnosti . Overte výpočtom, že platí (0, 1)(X X)-1 0 1 = n n n i=1 x2 i - ( n i=1 xi)2 = 1 n i=1(xi - x)2 = 1 n i=1 x2 i - nx2 . (32) Z (18) dostaneme 100(1 - )%-ný interval spoľahlivosti pre 1 ^1 - tn-2 1 - 2 s n i=1 x2 i - nx2 , ^1 + tn-2 1 - 2 s n i=1 x2 i - nx2 . (33) Analgicky odvoďte test hypotézy H0 : 0 = 0 (dané číslo) >< H1 : 0 = 0. (34) Keď aplikujeme Vetu 5.22 a zvolíme c = (1, x) , 0 (x dané reálne číslo, 0 je hyptetická hodnota 0 + 1x), dostávame: 39 Test hypotézy H0 : 0 + 1x = 0 (dané číslo) >< H1 : 0 + 1x = 0 (35) realizujeme pomocou testovacej štatistiky T0 = ^0 + ^1x - 0 s 1 n + (x - x)2 n i=1 x2 i - nx2 tn-2 (za platnosti H0). Ak |T0| tn-2 1 - 2 = H0 zamietame, ak |T0| < tn-2 1 - 2 = H0 nezamietame. Podľa Vety 5.22 má tento test hladinu významnosti . Overte výpočtom, že platí (1, x)(X X)-1 1 x = 1 n + (x - x)2 n i=1 x2 i - nx2 . (36) Z (18) dostaneme 100(1 - )%-ný interval spoľahlivosti pre 0 + 1x ^0 + ^1x - tn-2 1 - 2 s 1 n + (x - x)2 n i=1 x2 i - nx2 , ^0 + ^1x + tn-2 1 - 2 s 1 n + (x - x)2 n i=1 x2 i - nx2 . (37) Poznámka 5.28: Ak vynesieme (37) pre každé x R1 , dostaneme 100(1 - )%-ný pás spoľahlivosti okolo regresnej priamky, ktorý prekaždé x (zvlášť) pokrýva skutočnnú (bezchybnú) hodnotu 0 + 1x s pravdepodobnosťou 1 - . Naužší je pre x = x. Jeho šírka sa dá ovplyvniť výberom bodov x1, ..., xn, t.j. dizajnom experimentu. 100(1 - )%-ný pás spoľahlivosti pre celú regresnú priamku je ^0 + ^1x - s 2F2,n-2(1 - ) 1 n + (x - x)2 n i=1 x2 i - nx2 , ^0 + ^1x + s 2F2,n-2(1 - ) 1 n + (x - x)2 n i=1 x2 i - nx2 . (38) Pokrýva s pravdepodobnosťou 1 - celú priamku 0 + 1x (celú teoretickú regresnú preiamku). Je širší ako pás spoľahlivosti okolo regresnej priamky. Odvodíme si ho neskôr. Pozri Obr. 2, str. 106 v knihe Anděl, J., Matematická statistika, SNTL, Praha, 1985. 40 Poznámka 5.29: Ak vynesieme (22) pre c = (1, x) pre každé x R1 , dostaneme 100(1 - )%-ný tolerančný pás (pás spoľahlvosti pre jednotlivé merania), ktorý pre každé x (zvlášť) obsahuje meranie v bode x s pravdepodobnosťou 1 - : ^0 + ^1x - tn-2 1 - 2 s 1 + 1 n + (x - x)2 n i=1 x2 i - nx2 , ^0 + ^1x + tn-2 1 - 2 s 1 + 1 n + (x - x)2 n i=1 x2 i - nx2 . (39) e) Dvojica regresných priamok. Majme skupinu náhodných veličín (meraní) Y1, ..., Yn, pre ktoré platí Yi = 0 + 1xi + i, i = 1, 2, ..., n, n 3 a od nich nezávislú inú skupinu náhodných veličín (meraní) Y1 , ..., Yn , pre ktoré platí Yi = 0 + 1 xi + i , i = 1, 2, ..., n , n 3 LRM pre prvú skupinu meraní je (Y, X, 2 I) a pre druhú skupinu meraní je (Y , X , 2 I), (2 je pre obe skupiny meraní rovnaká), teda Yn,1 = 1 x1 1 x2 ... ... 1 xn 0 1 + n,1 = X 0 1 + , cov(Y) = cov() = 2 In,n, Y n ,1 = 1 x1 1 x2 ... ... 1 xn 0 1 + n,1 = X 0 1 + , cov(Y ) = cov( ) = 2 In ,n , pričom cov(, ) = 0. Označme MNČ odhady v jednotlivých LRM ^ a ^ , ďalej (podľa (30)) s2 = 1 n - 2 (Y Y - ^ X Y) = 1 n - 2 n i=1 Y 2 i - ^0 n i=1 Yi - ^1 n i=1 xiYi , (40) s 2 = 1 n - 2 (Y Y - (^ ) X Y ) = 1 n - 2 n i=1 Yi 2 - ^0 n i=1 Yi - ^1 n i=1 xi Yi . (41) Podľa Vety 5.21 je n - 2 2 s2 2 n-2 a n - 2 2 s 2 2 n -2, sú nezávislé a preto (podľa Vety 3.5) n - 2 2 s2 + n - 2 2 s 2 = 1 2 (n - 2)s2 + (n - 2)s 2 2 n+n -4. (42) Podľa Vety 5.21 (iii) n - 2 2 s2 + n - 2 2 s 2 nezávisí od ^ ani od ^ (ktoré sú tiež medzi sebou nezávislé) a (pomocou Vety 5.21) dostávame ^ = ^1 - ^1 N(1 - 1 , 2 {(X X)-1 }22 + 2 {(X X )-1 }22}), 41 čiže ^1 - ^1 - (1 - 1 ) 2[{(X X)-1}22 + {(X X )-1}22] = ^1 - ^1 - (1 - 1 ) 2 1 n i=1 x2 i - nx2 + 1 n i=1(xi )2 - n x 2 N(0, 1). (43) Zo vzťahov (42) a (43) dostávame, že štatistika T = ^1 - ^1 - (1 - 1 ) 2 1 n i=1 x2 i - nx2 + 1 n i=1(xi )2 - n x 2 1 2 (n - 2)s2 + (n - 2)s 2 n + n - 4 = = [^1 - ^1 - (1 - 1 )] n + n - 4 (n - 2)s2 + (n - 2)s 2 1 n i=1 x2 i - nx2 + 1 n i=1(xi )2 - n x 2 tn+n -4 (44) Test hypotézy H0 : 1 = 1 >< H1 : 1 = 1 (45) realizujeme pomocou testovacej štatistiky T0 = ^1 - ^1 n + n - 4 (n - 2)s2 + (n - 2)s 2 1 n i=1 x2 i - nx2 + 1 n i=1(xi )2 - n x 2 tn+n -4 (za platnosti H0). Ak |T0| tn+n -4 1 - 2 = H0 zamietame, ak |T0| < tn+n -4 1 - 2 = H0 nezamietame. Test má hladinu významnosti . Podľa Vety 5.21 (i) ^ N(, 2 (X X)-1 ) a ^ N( , 2 (X X )-1 ). Tieto odhady sú nezávislé a preto ^ - ^ N( - , 2 [(X X)-1 + (X X )-1 ]) (k dôkazu stačí napr. vhodne použiť Vetu 2.6). Podľa Vety 3.13 je [^ - ^ - ( - )] 1 2 [(X X)-1 + (X X )-1 ]-1 [^ - ^ - ( - )] 2 2 a samozrejme je táto náhodná veličina nezávislá s 1 2 (n - 2)s2 + (n - 2)s 2 2 n+n -4. Ľahko dostávame, že štatistika F = [^ - ^ - ( - )] [(X X)-1 + (X X )-1 ]-1 [^ - ^ - ( - )] (n - 2)s2 + (n - 2)s 2 n + n - 4 2 F2,n+n -4. 42 Test hypotézy (o totožnosti (celých) teoretických regresných priamok) H0 : 0 1 = 0 1 >< H1 : 0 1 = 0 1 (46) realizujeme pomocou testovacej štatistiky F0 = (^ - ^ ) [(X X)-1 + (X X )-1 ]-1 (^ - ^ ) (n - 2)s2 + (n - 2)s 2 n + n - 4 2 F2,n+n -4. (za platnosti H0). Ak F0 F2,n+n -4(1 - ) = H0 zamietame, ak F0 < F2,n+n -4(1 - ) = H0 nezamietame. Test má hladinu významnosti . Nech v "nehviezdičkovom" LRM je disperzia náhodných chýb 2 a v "hviezdičkovanom" 2 . Podľa Vety 5.21 je n - 2 2 s2 2 n-2 a n - 2 2 s 2 2 n -2. s2 a 2 , sú nezávislé, preto F = s2 2 s 2 2 Fn-2,n -2. Test hypotézy H0 : 2 = 2 >< H1 : 2 = 2 (47) realizujeme pomocou testovacej štatistiky F0 = s2 s 2 Fn-2,n -2 (za platnosti H0). Ak F0 Fn-2,n -2(1 - ) = H0 zamietame, ak F0 < Fn-2,n -2(1 - ) = H0 nezamietame. Test má hladinu významnosti . Poznámka 5.30: Obidva LRM ("nehviezdičkovaný" a "hviezdičkovaný") sa dajú modelovať jediným LRM, a síce Y Y = 1n,1 x 0n,1 0n,1 0n ,1 0n ,1 1n ,1 x 0 1 0 1 + , cov = 2 In+n ,n+n , kde x = (x1, ..., xn) a x = (x1, ..., xn ) . Všetky testy uvedené v bode e) sa dajú odvodiť v tomto modeli. f) Regresná parabola (kvadratická regresia). Majme nezávislé náhodné veličiny (merania) Y1, ..., Yn, pre ktoré platí Yi = 0 + 1xi + 2x2 i + i, i = 1, 2, ..., n, n 4. 43 (Bezchybné merania ležia na parabole y = 0 + 1x + 2x2 , hodnoty xi, i = 1, 2, ..., n poznáme bezchybne (úplne presne)). LRM je Yn,1 = 1 x1 x2 1 1 x2 x2 2 ... ... ... 1 xn x2 n 0 1 2 + n,1 = X 0 1 2 + , cov(Y) = cov() = 2 In,n. Samozrejme ^ = (X X)-1 X Y a s2 = 1 n - 3 ( n n=1 Y 2 i - ^0 n i=1 Yi - ^1 n i=1 xiYi - ^2 n i=1 x2 i Yi). Test hypotézy H0 : 2 = 0 >< H1 : 2 = 0 (48) realizujeme pomocou testovacej štatistiky T2 = ^2 s {(X X)-1}33 tn-3 (za platnosti H0). Test hypotézy H0 : 1 2 = 0 0 >< H1 : 1 2 = 0 0 (49) realizujeme pomocou testovacej štatistiky F0 = 1 2s2 ( ^1, ^2) {(X X)-1 }22 {(X X)-1 }23 {(X X)-1 }32 {(X X)-1 }33 -1 ^1 ^2 F2,n-3 (za platnosti H0). V tomto prípade testujeme, či Yi = 0 +i (teda, či Yi nezávisia od xi) oproti alternatíve, že závisia lineárne alebo kvadraticky. g) Polynomická regresia. Majme nezávislé náhodné veličiny (merania) Y1, ..., Yn, pre ktoré platí Yi = 0 + 1xi + 2x2 i + ... + pxp + i, i = 1, 2, ..., n, n p + 2. (Bezchybné merania ležia na polynome p-teho stupňa y = 0 + 1x + 2x2 + ... + pxp , hodnoty xi, i = 1, 2, ..., n poznáme bezchybne (úplne presne)). LRM je Yn,1 = 1 x1 x2 1 . . . xp 1 1 x2 x2 2 . . . xp 2 ... ... ... . . . 1 xn x2 n . . . xp n 0 1 2 ... p + n,1 = X 0 1 2 ... p + , cov(Y) = cov() = 2 In,n. Testy dostaneme analogicky ako v prípade regresnej priamky alebo paraboly. h) Model s dvomi vysvetľujúcimi premennými. 44 Majme nezávislé náhodné veličiny (merania) Y1, ..., Yn, pre ktoré platí Yi = 0 + 1xi + 2zi + i, i = 1, 2, ..., n, n 4. teda bezchybné merania lineárne závisia od dvoch (vysvetľujúcich) premenných x a z. Hodnoty xi a zi, i = 1, 2, ..., n poznáme úplne bezchybne. LRM je Yn,1 = 1 x1 z1 1 x2 z2 ... ... ... 1 xn zn 0 1 2 + n,1 = X 0 1 2 + , cov(Y) = cov() = 2 In,n. Odhady ^ = (X X)-1 X Y a s2 = 1 n - 3 ( n n=1 Y 2 i - ^0 n i=1 Yi - ^1 n i=1 xiYi - ^2 n i=1 ziYi). Test hypotézy H0 : 2 = 0 >< H1 : 2 = 0 (50) realizujeme pomocou testovacej štatistiky T2 = ^2 s {(X X)-1}33 tn-3 (za platnosti H0). Test hypotézy H0 : 1 = 0 >< H1 : 1 = 0 (51) realizujeme pomocou testovacej štatistiky T1 = ^1 s {(X X)-1}22 tn-3 (za platnosti H0). Test hypotézy H0 : 1 2 = 0 0 >< H1 : 1 2 = 0 0 (52) realizujeme pomocou testovacej štatistiky F0 = 1 2s2 ( ^1, ^2) {(X X)-1 }22 {(X X)-1 }23 {(X X)-1 }32 {(X X)-1 }33 -1 ^1 ^2 F2,n-3 (za platnosti H0). 6 Výberový korelačný koeficient Majme náhodný výber X1 Y1 , X2 Y2 , ..., Xn Yn z dvojrozmerného rozdelenia s distribučnou funkciou F(x, y; ). Definícia 6.1: Nech X = 1 n n i=1 Xi, Y = 1 n n i=1 Yi sú výberové priemery. Štatistiku SXY = 1 n - 1 n i=1 (Xi - X)(Yi - Y ) 45 nazývame výberovou kovarianciou, S2 X = 1 n - 1 n i=1 (Xi - X)2 = 1 n - 1 n i=1 X2 i - nX 2 , S2 Y = 1 n - 1 n i=1 (Yi - Y )2 = 1 n - 1 n i=1 Y 2 i - nY 2 sú výberové rozptyly. Výberový korelačný koeficient je rXY = r = SXY SXSY = n i=1(Xi - X)(Yi - Y ) n i=1(Xi - X)2 n j=1(Yj - Y )2 = n i=1 XiYi - nX Y n i=1 X2 i - nX 2 n j=1 Y 2 j - nY 2 . Poznámka 6.2: Dá sa ukázať (pozri napr. Anděl, J., Matematická statistika, SNTL, Praha, 1985, str.116), že ak máme náhodný výber rozsahu aspoň 2 z absolútne spojitého rozdelenia, tak rXY je definovaný s pravdepodobnosťou 1. Veta 6.3: Nech X1 Y1 , X2 Y2 , ..., Xn Yn je náhodný výber z regulárneho N2 X Y , D(X) D(X)D(Y ) D(X)D(Y ) D(Y ) rozdelenia, n > 2, 0 < D(X) < , 0 < D(Y ) < , 2 = 1. Ak = 0 tak T = r 1 - r2 n - 2 tn-2. Dôkaz: Uvažujme podmienené rozdelenie Yi/Xi = xi ozn. = (xi)Yi, i = 1, 2, ..., n. Podľa (6) (xi)Yi N Y + D(Y ) D(X) (xi - X), D(Y )(1 - 2 ) . Ak označíme 0 = Y - X D(Y ) D(X) a 1 = D(Y ) D(X) , tak dostávame, že (xi)Yi N(0 + 1xi, D(Y )(1 - 2 )), i = 1, 2, ..., n, pričom (x1)Y1,(x2) Y2, ...,(xn) Yn sú nezávislé. Máme teda LRM (x1)Y1 (x2)Y2 ... (xn)Yn = 1 x1 1 x2 ... ... 1 xn 0 1 +(x), (x) Nn(0, D(Y )(1 - 2 )In,n). V tomto LRM platí = 0 1 = 0. Z (28), (29) a (30) dostávame (x) ^1 = n i=1(xi - x)((xi)Yi -(x) Y ) n i=1(xi - x)2 , (x) ^0 =(x) Y -(x) ^1x, (x)Y = 1 n n i=1 (xi)Yi, (x)s2 = 1 n - 2 n i=1 (xi)Y 2 i -(x) ^0 n i=1 (xi)Yi -(x) ^1 n i=1 xi (xi)Yi . Za platnosti = 0 (teda 1 = 0) (x)T = (x) ^1 (x)s n i=1 (xi - x)2 = (x) ^1 (x)s n i=1 x2 i - nx2 tn-2 (53) (pozri (31) a nižšie). 46 Ešte upravme výraz pre (x)s2 : (x)s2 = 1 n - 2 n i=1 (xi)Y 2 i -(x) ^0 n i=1 (xi)Yi -(x) ^1 n i=1 xi (xi)Yi = = 1 n - 2 n i=1 (xi)Y 2 i - (x)Y -(x) ^1x n i=1 (xi)Yi -(x) ^1 n i=1 xi (xi)Yi = = 1 n - 2 n i=1 (xi)Y 2 i - (x)Y -(x) ^1x n(x)Y -(x) ^1 n i=1 xi (xi)Yi = = 1 n - 2 n i=1 (xi)Y 2 i - n(x)Y 2 +(x) ^1 nx(x)Y - n i=1 xi (xi)Yi = = 1 n - 2 n i=1 (xi)Yi -(x) Y 2 - n i=1(xi - x)((xi)Yi -(x) Y ) n i=1(xi - x)2 n i=1 xi (xi)Yi - nx(x)Y = = 1 n - 2 n i=1 (xi)Yi -(x) Y 2 - n i=1(xi - x)((xi)Yi -(x) Y ) n i=1(xi - x)2 n i=1 (xi - x)((xi)Yi -(x) Y ) = = 1 n - 2 n i=1(xi - x)2 n j=1 (xj )Yj -(x) Y 2 - n i=1(xi - x)((xi)Yi -(x) Y ) 2 n i=1(xi - x)2 . Dosadením do (53) dostávame (x)T = n i=1(xi - x)((xi)Yi -(x) Y ) n i=1(xi - x)2 1 n - 2 n i=1(xi - x)2 n j=1 (xj )Yj -(x) Y 2 - n i=1(xi - x)((xi)Yi -(x) Y ) 2 n i=1(xi - x)2 n i=1 (xi - x)2 = = n i=1(xi - x)((xi)Yi -(x) Y ) n i=1(xi - x)2 n j=1 (xj )Yj -(x) Y 2 - n i=1(xi - x)((xi)Yi -(x) Y ) 2 n - 2 = = n i=1(xi - x)((xi)Yi -(x) Y ) n i=1(xi - x)2 n j=1 (xj )Yj -(x) Y 2 1 - n i=1(xi - x)((xi)Yi -(x) Y ) n i=1(xi - x)2 n j=1 (xj )Yj -(x) Y 2 2 n - 2 tn-2. Teda (x)T tn-2 pre ľubovoľné x = (x1, ..., xn) . To je ale to isté, ako tvrdenie T = r 1 - r2 n - 2 tn-2 ((x)T je podmienené T za podmienky X = x, ale nezáleží na podmienke, teda "nepodmienené" T má rovnaké rozdelenie ako podmienené (x)T). Q.E.D. Majme náhodný výber X1 Y1 , X2 Y2 , ..., Xn Yn z dvojrozmerného regulárneho normálneho rozdelenia. Pomocou Vety 6.3 testujeme hypotézu o nezávislosti X a Y . 47 Test hypotézy H0 : = 0 >< H1 : = 0 (54) realizujeme pomocou testovacej štatistiky T0 = r 1 - r2 n - 2 tn-2 (za platnosti H0). Ak |T0| tn-2 1 - 2 = H0 zamietame, ak |T0| < tn-2 1 - 2 = H0 nezamietame. Tento test má hladinu významnosti . Poznámka 6.4: Zobrazenie z : (-1, 1) R : z(x) = 1 2 ln 1 + x 1 - x sa nazýva Fisherova Z-transformácia. Bez dôkazu si uvedieme nasledujúce tvrdenie: Veta 6.5: Majme náhodný výber X1 Y1 , X2 Y2 , ..., Xn Yn z dvojrozmerného regulárneho normálneho rozdelenia s korelačným koeficientom a výberovým korelačným koeficientom r. Platí Z = 1 2 ln 1 + r 1 - r N 1 2 ln 1 + 1 - + 2(n - 1) , 1 n - 3 . Aproximácia je požiteľná pre n 10 a nie blízke 1 alebo -1. Veta 6.5 sa aplikuje v nasledujúcich prípadoch a) Test hypotézy H0 : = 0 >< H1 : = 0 (55) realizujeme pomocou testovacej štatistiky U0 = Z - 1 2 ln 1 + 0 1 - 0 - 0 2(n - 1) 1 n - 3 N(0, 1) (za platnosti H0). Ak |U0| u(1 - 2 ) = H0 zamietame, ak |U0| < u(1 - 2 ) = H0 nezamietame, pričom u 1 - 2 je 1 - 2 - kvantil N(0, 1) rozdelenia. Test má hladinu významnosti približne rovnú . Pre veľké n je Z N 1 2 ln 1 + 1 - , 1 n - 3 . b) Majme dva nezávislé výbery, každý z dvojrozmerného regulárneho normálneho rozdelenia. Ich rozsahy n1 a n2 sú aspoň 30. Korelačný koeficient u prvého rozdelenia je 1, u druhého je 2. Výberové korelačné koeficienty sú r1, r2 a Z1 = 1 2 ln 1 + r1 1 - r1 , Z2 = 1 2 ln 1 + r2 1 - r2 . Test hypotézy H0 : 1 = 2 >< H1 : 1 = 2 (56) realizujeme pomocou testovacej štatistiky U0 = Z1 - Z2 1 n1 - 3 + 1 n2 - 3 N(0, 1) (za platnosti H0). 48 Ak |U0| u(1 - 2 ) = H0 zamietame, ak |U0| < u(1 - 2 ) = H0 nezamietame, Test má hladinu významnosti približne rovnú . Definícia 6.6: Majme náhodný výber X1 = X1,1 X1,2 ... X1,p , X2 = X2,1 X2,2 ... X2 p , ... Xn = Xn,1 Xn,2 ... Xn,p z p-rozmerného rozdelenia so strednou hodnotou = (1, ..., p) a kovariančnou maticou . X = 1 n n i=1 Xi je výberový priemer, SX = S = 1 n - 1 n i=1 (Xi - X)(Xi - X) je výberová kovariančná matica a RX = R = (diagS)- 1 2 S(diagS)- 1 2 je výberová korelačná matica, pričom (diagS)- 1 2 = {S} - 1 2 1,1 0 . . . 0 0 {S} - 1 2 2,2 . . . 0 ... ... ... 0 . . . {S} - 1 2 p,p . Poznámka 6.7: (i) Namiesto S sa niekedy používa M = 1 n n i=1(Xi - X)(Xi - X) = n - 1 n S. (ii) {S}j,k je výberová kovariancia i = j, {S}j,k = 1 n - 1 n i=1(Xi,j -Xj)(Xi,k-Xk), Xj = 1 n n i=1 Xi,j. (iii) {S}j,j je výberový rozptyl {S}j,j = 1 n - 1 n i=1(Xi,j - Xj)2 . (iv) D = (X1 ... X2 ... ... ... Xn) je dátová matica (matica dát) typu p × n. Veta 6.8: Nech X1, ..., Xn je náhodný výber z p-rozmerného rozdelenia so strednou hodnotou a kovariančnou maticou . Potom (i) X je nestranný odhad ; (ii) cov(X) = 1 n ; (iii) S je nestranný odhad . Dôkaz: (i) E(X) = E 1 n n i=1 Xi = 1 n n i=1 E(Xi) = 1 n n i=1 = ; (ii) cov(X) = E (X - )(X - ) = = E 1 n (X1 - + X2 - + ... + Xn - ) 1 n (X1 - + X2 - + ... + Xn - ) = 49 = 1 n2 E ((X1 - )(X1 - ) + (X2 - )(X2 - ) + ... + (Xn - )(Xn - ) ) = (lebo E(Xi - )(Xj - ) = 0 pre i = j) = 1 n2 n i=1 E(Xi - )(Xi - ) = 1 n2 (n) = 1 n . (iii) E ((n - 1)S) = E n i=1(Xi - X)(Xi - X) = E n i=1(Xi - - (X - ))(Xi - - (X - )) = = E n i=1 (Xi - )(Xi - ) - n i=1 (Xi - )(X - ) - n i=1 (X - )(Xi - ) + n(X - )(X - ) = = E n i=1 (Xi - )(Xi - ) - n(X - )(X - ) - n(X - )(X - ) + n(X - )(X - ) = (lebo n i=1(Xi - ) = n(X - )) = E n i=1 (Xi - )(Xi - ) - nE (X - )(X - ) = n - n cov(X) = (n - 1). Q.E.D. Poznámka 6.9: Z Vety 6.8 vyplýva, že E{S}i,j = {}i,j Nech X1 = Y1 Z1 , ..., Xn = Yn Zn , kde Yi Rk , Zi Rp-k , i = 1, 2, ..., n, je náhodný výber z p-rozmerného rozdelenia so strednou hodnotou = Y Z , pričom Y Rk , Z Rp-k a kovariančnou maticou = Y,Y Y,Z Z,Y Z,Z , kde Y,Y je k × k matica, Y,Z je k × (p - k) matica, Z,Y je (p - k) × k matica a Z,Z je (p - k) × (p - k) matica. Úplne rovnako rozdeľme výberovú kovariančnú maticu S = SY,Y SY,Z SZ,Y SZ,Z tak, že SY,Y je k×k matica, SY,Z je k × (p - k) matica, SZ,Y je (p - k) × k matica a SZ,Z je (p - k) × (p - k) matica a tiež výberovú korelačnú maticu R = RY,Y RY,Z RZ,Y RZ,Z tak, že RY,Y je k × k matica, RY,Z je k × (p - k) matica, RZ,Y je (p - k) × k matica a RZ,Z je (p - k) × (p - k) matica. Maticu SY,Z nazývame výberová kovariančná matica náhodných výberov Y1, ..., Yn a Z1, ..., Zn. Platí SY,Z = 1 n - 1 n i=1 (Yi - Y)(Zi - Z) a podľa Vety 6.8 (iii) je E(SY,Z) = Y,Z. Definícia 6.10: Ak Y1 X1 , ..., Yn Xn , kde Yi R, Xi Rp , i = 1, 2, ..., n, je náhodný výber z (p + 1)-rozmerného rozdelenia s regulárnou výberovou korelačnou maticou RX,X, tak výberový koeficient mnohnásobnej korelácie rY,X je definovaný ako také nezáporné číslo, pre ktoré platí r2 Y,X = RY,XR-1 X,XRX,Y . Poznámka 6.11: Výberový koeficient mnohnásobnej korelácie rY,X je akýsi výberový "proťajšok" teoretického koeficientu mnohonásobnej korelácie Y,X (pozri Vetu 4.7 (i),(iii)). 50 Veta 6.12: Nech Y1 X1 , ..., Yn Xn , je náhodný výber z (p + 1)-rozmerného regulárneho normálneho rozdelenia s koeficientom mnohonásobnej korelácie Y,X = 0. Ak n > p + 1, tak štatistika F = n - p - 1 p r2 Y,X 1 - r2 Y,X Fp,n-p-1. Dôkaz: Pomcou vhodného LRM, pozri Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 125. Test hypotézy H0 : Y,X = 0 >< H1 : Y,X = 0 (57) realizujeme pomocou testovacej štatistiky (z Vety 6.12) F0 = n - p - 1 p r2 Y,X 1 - r2 Y,X Fp,n-p-1 (za platnosti H0). Ak F0 Fp,n-p-1(1 - ) = H0 zamietame, ak F0 < Fp,n-p-1(1 - ) = H0 nezamietame, Test má hladinu významnosti rovnú . Definícia 6.13: Ak Y1 Z1 X1 , ..., Yn Zn Xn , kde Yi R, Zi R, Xi Rp , i = 1, 2, ..., n, je náhodný výber z (p + 2)-rozmerného rozdelenia s regulárnou výberovou korelačnou maticou R Y Z X = 1 rY,Z RY,X rZ,Y 1 RZ,X RX,Y RX,Z RX,X , tak výberový koeficient parciálnej korelácie (výberový parciálny korelačný koeficient) je rY,Z.X = rY,Z - RY,XR-1 X,XRX,Z (1 - r2 Y,X)(1 - r2 Z,X) , kde r2 Y,X = RY,XR-1 X,XRX,Y , r2 Z,X = RZ,XR-1 X,XRX,Z, pokiaľ menovateľ nie je rový nule. Poznámka 6.14: Výberový koeficient parciálnej korelácie rY,Z,X je akýsi výberový "proťajšok" teoretického parciálneho korelačného koeficientu Y,Z.X (pozri Vetu 4.12). Veta 6.15: Nech Y1 Z1 X1 , ..., Yn Zn Xn je náhodný výber z (p + 2)-rozmerného regulárneho normálneho rozdelenia, ktoré má parciálny korelačný koeficient Y,Z.X = 0. Ak n > p + 2, tak štatistika T = rY,Z.X 1 - r2 Y,Z.X n - p - 2 tn-p-2. Dôkaz: Pomcou vhodného LRM, pozri Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 128. 51 Test hypotézy H0 : Y,Z.X = 0 >< H1 : Y,Z.X = 0 (58) realizujeme pomocou testovacej štatistiky (z Vety 6.15) T0 = rY,Z.X 1 - r2 Y,Z.X n - p - 2 tn-p-2 (za platnosti H0). Ak |T0| tn-p-2 1 - 2 = H0 zamietame, ak |T0| < tn-p-2 1 - 2 = H0 nezamietame, Test má hladinu významnosti rovnú .