Literatura Směřujeme ke statistice Kovariance Matematika III – 10. týden Číselné charakteristiky – střední hodnota, rozptyl, kovariance, korelace Jan Slovák Masarykova univerzita Fakulta informatiky 17.–21. 11. 2014 Literatura Směřujeme ke statistice Kovariance Obsah přednášky 1 Literatura 2 Směřujeme ke statistice 3 Kovariance Literatura Směřujeme ke statistice Kovariance Kde je dobré číst? Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická pravděpodobnost statistika, Matfyzpress, 2006, 230pp. J. Slovák, M. Panák, M. Bulant, Matematika drsně a svižně, Muni Press, Brno 2013, v+773 s., elektronická edice www.math.muni.cz/Matematika_drsne_svizne Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. Marie Budíková, Tomáš Lerch, Štěpán Mikoláš, Základní statistické metody, Masarykova univerzita, 2005, 170 stran, ISBN 80-210-3886-1. Riley, K.F., Hobson, M.P., Bence, S.J. Mathematical Methods for Physics and Engineering, second edition, Cambridge University Press, Cambridge 2004, ISBN 0 521 89067 5, xxiii + 1232 pp. Literatura Směřujeme ke statistice Kovariance Střední hodnota Nechť X je náhodná veličina s diskrétním rozdělením. Jestliže řada ∞ k=1 xi P(X = xi ) konverguje absolutně (zejména tedy pro všechny X s konečně mnoha možnými hodnotami xi ), pak její součet E X nazýváme střední hodnotou X. Je-li X náhodná veličina se spojitým rozdělením s hustotou f (x) a nevlastní integrál ∞ −∞ xf (x)dx konverguje absolutně, pak jeho hodnota E X se nazývá střední hodnota X. Je tedy E X = np, je-li X ∼ Bi(n, p), zatímco pro rovnoměrné rozdělení na intervalu (a, b) dostaneme dle očekávání E X = b a x b − a dx = 1 2 b2 − a2 b − a = 1 2 (a + b). Literatura Směřujeme ke statistice Kovariance Vlastnosti střední hodnoty Theorem Uvažme náhodné veličiny X, Y , skaláry a, b ∈ R, náhodný vektor W = (X1, . . . , Xn) a čtvercovou skalární matici B s n řádky. Pro konstantní náhodnou veličinu X = a ∈ R je E a = a. E(a + bX) = a + b E X. E(X + Y ) = E X + E Y . E(a + BX) = a + B(E X). Theorem Jsou-li veličiny X a Y nezávislé, pak E(XY ) = E X E Y . Literatura Směřujeme ke statistice Kovariance Rozptyl Další charakteristika popisuje, jak moc se dá čekat, že se hodnoty náhodné veličiny „hemží“ kolem nějaké hodnoty. Definition Nechť X je náhodná veličina s konečnou střední hodnotou. Pak definujeme rozptyl veličiny X výrazem var X = E(X − E X)2 , pokud taková konečná hodnota existuje. Odmocnina z rozptylu √ var X se nazývá směrodatná odchylka náhodné veličiny X. Jde o zjevnou obdobu definice kvadrátu vzdálenosti vektorů nebo funkcí. Zachycujeme tak „očekávanou vzdálenost“ hodnot X od její střední hodnoty. Literatura Směřujeme ke statistice Kovariance Theorem Jestliže má náhodná veličina X konečný rozptyl, pro libovolné skaláry a, b ∈ R platí var X = E X2 − (E X)2 var(a + bX) = b2 var X var(a + bX) = |b| √ var X. Občas přiřazujeme k X normovanou veličinu Z, Z = X − E X √ var X , která má zjevně nulovou střední hodnotu a jednotkový rozptyl. Literatura Směřujeme ke statistice Kovariance Normální rozdělení Z má hustotu ϕ(z) = 1√ 2π e−z2/2 distribuční funkci Φ(z) = z −∞ ϕ(t)dt = z −∞ 1√ 2π e−z2/2dt. Náhodná veličina Y = µ + σZ, µ, σ ∈ R, σ > 0 má distribuční funkci FY (y) = y−µ σ −∞ 1 √ 2π e−z2/2 dz {substituce x = µ + σz} = y −∞ 1 √ 2πσ exp − (x − µ)2 2σ2 dx Takové rozdělení je normální, píšeme Y ∼ N(µ, σ2). Parametry odpovídají střední hodnotě a rozptylu. Literatura Směřujeme ke statistice Kovariance Uvažme Z ∼ N(0, 1) a podívejme se na náhodnou veličinu X = Z2. FX (x) = P[Z2 < x] = √ x − √ x 1 √ 2π e−z2/2 dz = x 0 1 √ 2π t−1/2 e−t/2 dt s hustotou fX (x) = 1 √ 2π t−1/2 e−t/2 . Říkáme mu rozdělení χ2, píšeme X ∼ χ2(1). Literatura Směřujeme ke statistice Kovariance kvantilová funkce Je-li F(x) distibuční funkce náhodné veličiny X, pak F−1 (u) = inf{x ∈ R; F(x) ≥ u}, 0 < u < 1 je kvantilová funkce náhodné veličiny X. Hodnota F−1(α) se nazývá α-kvantil. Tzv. kritické hodnoty pro veličinu X jsou pak F−1(1 − α). Literatura Směřujeme ke statistice Kovariance Čebyševova nerovnost Theorem Má-li X rozptyl a > 0 je libovolné, pak platí P(|X − E X| ≥ ) ≤ var X 2 . Literatura Směřujeme ke statistice Kovariance Kovariance veličin Jsou-li X a Y dvě náhodné veličiny, pro které existují jejich konečné royptyly, pak definijeme jejich kovarianci vztahem cov(X, Y ) = E(X − E X)(Y − E Y ). Evidentně je cov(X, X) = var X a cov(X, Y ) = cov(Y , X). Theorem Nechť existují konečné rozptyly veličin X a Y . Pak cov(X, Y ) = E(XY ) − (E X)(E Y ) pro jakékoliv skaláry a, b, c, d platí cov(a + bX, c + dY ) = bd cov(X, Y ) var(X + Y ) = var X + var Y + 2 cov(X, Y ). Literatura Směřujeme ke statistice Kovariance Od kovariance snadno odvodíme tzv. korelační koeficient dvou náhodných veličin X a Y . Definujeme jej jako kovarianci příslušných normovaných veličin: ρX,Y = cov X − E X √ var X , Y − E Y √ var Y = cov(X, Y ) √ var X varY . Theorem ρa+bX,c+dY = sign(bd)ρX,Y , pro bd = 0 ρX,X = 1 ρX,Y = 0, pokud jsou veličiny X a Y nezávislé. pokud je ρX,Y definován, pak je roven jedné právě, když existují konstanty a, b, c tak, že P(aX + bY = c) = 1. Literatura Směřujeme ke statistice Kovariance Varianční matice Uvažme náhodný vektor W = (X1, . . . , Xn) takový, že pro všechny jeho komponenty existuje rozptyl. Pak varianční matice var W je dána var W =     var X1 cov(X1, X2) . . . cov(X1, Xn) cov(X2, X1) var X2 . . . cov(X2, Xn) . . . cov(Xn, X1) cov(Xn, X2) . . . var Xn     . Theorem Pro náhodný vektor X, skaláry a, matice skalárů B platí var(a + BX) = B var XBT .