M5VM05 Statistické modelování 4. Základy regresní a korelační analýzy Jan Koláček (kolacek@math.muni.cz) Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/43 Motivace V předchozím jsme zkoumali jednotlivé jevy (statistické znaky) izolovaně; zabývali jsme se tzv. jednorozměrnými soubory, tj. soubory popisujícími pouze jeden statistický znak a nezajímaly nás jeho vazby a vztahy k jiným jevům. V reálném světě (v přírodě, společnosti, ekonomice,. ..) se ovšem jevy nacházejí ve více nebo méně složitých vzájemných vztazích - navzájem na sobě závisí a podmiňují se. Proto se statistická analýza nemůže omezit pouze na zkoumání izolovaných jevů, ale musí se také zabývat analýzou jejich vzájemných vztahů. Tato analýza se dá obecně rozdělit na dvě části: regresní a korelační. Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/43 Úloha regresní analýzy Hlavní úlohou regresní analýzy je provést predikci nějaké závisle proměnné náhodné veličiny Y na základě informace, kterou poskytují měření nějakých jiných náhodných veličin, řekněme X\,...,X^. Veličinám X\,...se potom říká nezávisle proměnné nebo též doprovodné proměnné, nebo také kovariáty. Měření nezávislých proměnných jsou pro experimentátora snáze dostupné než měření závisle proměnné Y. Predikce spočívá v nalezení nějaké funkce g(X\,... ,X^), která vhodně aproximuje závisle proměnnou Y. Kvalita predikce se obvykle posuzuje pomocí tzv. střední kvadratické chyby predikce E[Y — g{X\,... ,X^)]2. Za optimální se považuje volba takové predikční funkce g, která uvedenou střední kvadratickou chybu minimalizuje. Jan Koláček (PřF MU) M5VM05 Statistické modelování 3/43 Úloha korelační analýzy Vedle průběhu sledované závislosti Y na Xi,...,X^ dané funkcí g je také třeba se zaměřit na měření těsnosti tohoto vztahu, tedy je nutné zavést nějaké míry velikosti statistické vazby (závislosti) závisle proměnné Y na nezávisle proměnných Xi,... ,Xfc s ohledem na vybranou funkci g a případně také s ohledem na závislosti mezi náhodnými veličinami Xi,...,X^. Tato problematika je hlavní úlohou korelační analýzy. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od — 1 do 1). Čím je takový koeficient bližší 1 (resp. —1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. Korelační analýza většinou přirozeně navazuje na regresní analýzu. Nejprve pomocí regresní analýzy najdeme nějaký model závislosti v datech. Poté pomocí korelační analýzy zkoumáme vhodnost tohoto modelu. Jan Koláček (PřF MU) M5VM05 Statistické modelování 4/43 Optimální volba predikční funkce g Věta 1 Nechť Y, X\,..., Xfc jsou náhodné veličiny. Označme X = (Xj,..., X^)' a nechť EY2 < oo. Pak pro každou měřitelnou funkci g : Kk R E(y-^(x))2>E[y-E(y|x)~ a rovnost v uvedené nerovnosti nastává právě když P(g(X) = E(Y|X)) = 1. Jan Koláček (PřF MU) M5VM05 Statistické modelování 5/ Podmíněná střední hodnota Z = (Y/X)' .. .sdruž, hustota f(y,x); X a Y ... margin. hustoty/x(x), fy(y) Označme Mx = {x G R :/x(x) > 0}, My = {y G R :/y(y) > 0}. Pak podmíněná distribuční funkce je v tomto případě definována vztahem ( y a podmíněná hustota je rovna / *Mdt pro i £ Mx, 00 fx(x) o pro x G R \ Mx pro x 0, R(X,Y) = { V^PÔV^m V \ )' v 0 jinak, kde C(X,Y) = E[(X - EX)(Y - EY)] je kovariance náhodných veličin X a Y. Připomeneme jeho vlastnosti: • R(X,X) = 1 a R(X/Y)=R(Y/X) • R(a + bX,c + dY) = sgn(fed)R(X, Y) • —1 < -R(X, Y) < 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a,b, kde b ^ 0 tak, že P(Y = a + fcX) = 1, přičemž R(X, Y) = 1 pro fe > 0 a R(X, Y) = -1 pro fe < 0. Z těchto vlastností plyne, že R(X,Y) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y. Jan Koláček (PřF MU) M5VM05 Statistické modelování 9/43 Vlastnosti Věta 3 Mějme náhodnou veličinu Y s konečným a nenulovým rozptylem a náhodný vektor X = {X\,... ,Xj.)'. Potom pro libovolnou měřitelnou funkci g : Rfc ->■ R takovou, že existuje korelační koeficient R(Y,g(X)) platí R(Y,g(X))\0-plXf Jan Koláček (PřF MU) M5VM05 Statistické modelování 19/43 Koeficient mnohonásobné korelace Definice 6 Pearsonův korelační koeficient R(Y,Y) označíme py-x a budeme jej nazývat koeficientem mnohonásobné korelace náhodné veličiny Y na náhodném vektoru X = (Xi,...,Xfc)f (nebo též na náhodných veličinách ~X\,...,X^ a pak budeme podrobněji psát pY.(xlf...,xk))- Definice 7 (Korelační matice) Nechť X = (Xi,...,Xn)f a Y = (Y\,..., Ym)r jsou náhodné vektory. Potom matici R(X,Y) = /R(Xi,Yi) \R(Xn,Yl) R(XltYm)\ R(Xn,Ym)/ (R(Xř/Y;-))ř=1.....n _/=!,...,m nazýváme korelační maticí náhodných vektorů X a Y. Dále matici i?(X,X) budeme značit R(X) a budeme ji nazývat korelační maticí náhodného vektoru X. Jan Koláček (PřF MU) M5VM05 Statistické modelování 20 / 43 Vlastnosti Věta 8 Koeficient mnohonásobné korelace py-x má následující vlastnosti (1) Koeficient mnohonásobné korelace py.\ je vždy nezáporný. (2) Pomocí regresních koeficientu /5o,/3i, • • •,/3fc jej lze vyjádřit ve tvaru 2 _ Pr-x - -^Y~- (3) Pomocí korelačních matic jej lze vyjádřit ve tvaru p2Y.x = R(Y,X)(R(X))-1R(X,Y) (4) Pomocí reziduálního rozptylu lineární predikce jej lze vyjádřit ve tvaru cr1 2 _ i uy-x Py-x = 1 DY Jan Koláček (PřF MU) M5VM05 Statistické modelování 21/43 Poznámka O Vzorec je vhodný pro výpočet koeficientu mnohonásobné korelace v případě, že je k dispozici vektor regresních koeficientů O Vzorec p2.x = R(y/x)(K(x))-1R(x/y) se využívá v případě, že jsou k dispozici korelační koeficienty mezi náhodnými veličinami Y,X\,...,X^. O Identity Py-x — 1 DY ukazují, že korelační poměr 7/y|X je roven kvadrátu koeficientu mnohonásobné korelace pyX v případě, že teoretická regresní funkce g(X) = E(Y|X) je lineární funkcí proměnných Xi,...,Xfc. Dále je z tohoto vzorce patrné, že pokud se omezíme na lineární predikce, je interpretace koeficientu mnohonásobné korelace stejná jako je interpretace korelačního poměru v obecném případě. Jan Koláček (PřF MU) M5VM05 Statistické modelování 22 / 43 Pokračování O Podle uváděných vzorců lze koeficient mnohonásobné korelace py-x počítat i v případě, kdy podmíněná střední hodnota E(Y|X) není lineární. V tomto případě potom díky vztahu (dokázaném ve Větě 1) E(Y - j80 - jS7X)2 > E[Y - E(Y|X) 2 y-x -a. y|x snadno vidíme, že 0 < p\.x < rj2Y\x < 1 Jan Koláček (PřF MU) M5VM05 Statistické modelování Vlastnosti Věta 9 a Cq G R platí tj. koeficient mnohonásobné korelace je maximálni korelační koeficient mezi náhodnou veličinou Y a libovolnou lineární funkcí Cq + cfX náhodného vektoru X. i Důsledek 10 Pro libovolné j = 1,..., k platí tj. absolutní hodnota libovolného korelačního koeficientu mezi náhodnou veličinou Y a libovolnou z náhodných veličin ~K\,... je nejvýše rovna koeficientu mnohonásobné korelace mezi náhodnou veličinou Y a náhodným vektorem ň.x>R2(Y,Xi), x — (Xi,.. ./X^y. Jan Koláček (PřF MU) M5VM05 Statistické modelování 24 / 43 Prakticky Definice 11 Mějme náhodný výběr rozsahu n s vektory Xi = (^^j >- • -/^n = (jzf^J ' ^e pro i = 1,... ,n jsou náhodné vektory Yz- typu p x 1 a Zz- typu íjxl, přičemž p + = k. Definujme výběrové kovarianční matice n srz = ^rĽ Vi ~ Y) (zi " z)' = (s«/) (tyPu P x