MA012 Statistika II 7. Regresní diagnostika - Ondřej Pokora (pokora@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno (podzim 2015) Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika 1/50 Motivace V praxi se sestkáváme s jevem, že v souboru dat se vyskytují některé hodnoty výrazně se lišící od hodnot ostatních. V literatuře se rozvinuly dva směry, které se snaží s existencí takových hodnot vyrovnat: ■ metody robustní statistiky, ■ metody regresní diagnostiky. Robustní diagnostika používá odlišné modely, testy, apod., které jsou navrženy tak, aby se v nich pokud možno eliminoval vliv výrazně odlišných hodnot v datovém souboru. Regresní diagnostika, kterou budeme využívat, se snaží detekovat podezřelá data a pomocí vhodných statistických indikátorů dává statistikovi možnost rozhodnout se, jak s takovými hodnotami dále naloží. MA012 Statistika 11-7. Regresní diagnostika 2/50 m Data set 1 Data set 2 o (M O O O 00 O CD O o (M O —I o (M O O O 00 O CD O o (M O —I MA012 Statistika 11-7. Regresnf diagnostika 3/50 Data set 1 Data set 2 o (M O O O 00 O CD O o (M O —I + + ++ J+ + ^+++ ++ r i + o (M O O O 00 O CD O o (M O —I 0 10 20 30 40 MA012 Statistika 11-7. Regresnf diagnostika 4/50 Regresní diagnostika V rámci regresní diagnostiky se zabýváme dvěma základními úlohami: ■ detekcí neočekávaných hodnot v datovém souboru, rozhodnutím, zda takové hodnoty mohou významně ovlivnit statistickou analýzu datového souboru. Definice 1 (Neočekávané hodnoty) odlehlá pozorování (outliers) - neočekávané hodnoty vysvštlované proměnné, vybočující body (leverage points) - neočekávané hodnoty vysvětlujících proměnných, data, která lze zařadit do obou výšeuvedených skupin. MA012 Statistika 11-7. Regresní diagnostika s/so m Neočekávané hodnoty v datovém souboru Výskyt odlehlých pozorování či vybočujících bodů nemusí nutně výzznamně ovlivnit analýzu datového souboru, neboť i taková měření mohou být v souladu s předpokládaným matematicko-statistickým modelem. Většinou však odlehlá či vybočujcící pozorování významně ovlivňují výsledky analýzy a proto je vhodné se v regresní diagnostice zabývat. Významný vliv na výsledky však mohou mít i jiné body, než jen odlehlá či vybočující pozorování. Definice 2 (Vlivný bod) Jako vlivné body se označují všechny hodnoty datového souboru, které nějakým způsobem podstatně ovlivňují analýzu datového souboru, tj. některou z charakteristik spojených s odhadem vektoru parametrů v lineárním regresním modelu či s testováním hypotéz o parametrech. Základním nástrojem regresní diagnostiky jsou rezidua. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika 6/50 Lineární regresní model Pozorujeme dvojice {%{, Yz), i = 1,...,n. Předpokládáme Y i m(xi)+ei Xj ... body pevného plánu, Yj ... naměřené hodnoty £j ... chyby měření, E(čz) = 0, D(ez-) = a2, C(ez-,£y) = 0 pro z 7^ j. Hledáme odhad regresní funkce m. MA012 Statistika 11-7. Regresní diagnostika 7/50 m Lineární regresní model Celkově jsme dostali model Yi = j8i*n +----h jSfc^ifc + ei /YA Yn j6i*ni H-----h jSjt^jt + £ / X 11 + \%nl -X"(matice plánu) O náhodných chybách t\,...,tn budeme předpokládat, že jsou nesystematické, což lze matematicky vyjádřit požadavkem, že Eej i = 1,... ,n, tj. Ee = 0 a tedy EY = X/S = 0, homogenní v rozptylu, tj. že pro i = 1,...,n; jednotlivé náhodné chyby jsou nekorelované, tj. že C(ez-,£y) = 0 pro z _/,z,/ = 1,... ,n, tj. DY = Dč = cr2ín , takže i měření jsou nekorelovaná. MA012 Statistika 11-7. Regresní diagnostika s/so m Terminologie Používá se následující terminologie a značení ■ parametry ... ,j6^ se nazývají regresní koeficienty (regression coefficients); ■ matice X obsahuje nenáhodné prvky Xjj a nazývá se regresní maticí nebo maticí plánu (design matrix); ■ popsaný model souhrnně zapíšeme jako Y ~ C(Xfi,cr2\n). Takto zavedený model budeme nazývat lineární regresní model. Dále budeme předpokládat, že n > k a o hodnosti matice X budeme předpokládat, že je rovna k, tj. h(X) = k. Bude-li tento přepoklad splněn, budeme říkat, že jde lineární regresní model plné hodnosti. V tom případě jsou sloupce matice X nezávislé. V opačném případě, by bylo možné daný sloupec matice X napsat jako lineární kombinaci ostatních sloupců, což je možné interpretovat tak, že proměnná odpovídající danému sloupci je nadbytečná, protože ji lze vyjádřit jako lineární funkci ostatních proměnných. MA012 Statistika 11-7. Regresní diagnostika g/so m Metoda nej menších čtverců Definice 3 Řekneme, že odhad /S je odhadem parametru /S metodou nejmenších čtverců (Least Squares method), jestliže MA012 Statistika 11-7. Regresní diagnostika 10/50 Vlastnosti Věta 4 V lineárním regresním modelu Y - £(Xj6,cr2in) platí: EY = X/J, DY = o2 In, j6 = (X'X^X'Y, E/S = )S, Dj6 = C72 (XX)"1, Se = S(j8) = Y'Y - jÉSX'Y = Y'(í - H)Y, pricemz n — k je nestranným odhadem rozptylu cr H = X(XřX) 1Xř. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika Projekční matice Definice 5 (Projekční matice) Matice H = X (X7X) Xf se nazýva projekční matice (hat matrix). Věta 6 y—v Pro odhady Y platí Y = HY. Důkaz: y = X = X(X'X)-1X'Y = X(X'X)-1X'Y = HY. H Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika 12/50 Graficky Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika X 13/50 Vlastnosti projekční matice Věta 7 Projekční matice H = X (X'X) 1 X7; ■ je symetrická řádu n, tj. Hf = H, m je idempotentní, tj. H H = H, m má na hlavní diagonále hodnoty hu G [0; 1], (i = 1,..., n), m má stopu (Trace) rovnou počtu parametrů, Tr H = Y%=\ hu k- Definice 8 Jednotlivé sloupce projekční matice H se nazývají vlivové vektory. Číslo hjj se nazýva vliv pozorovaní Yz-, i = 1,...,n. Věta 9 Průměrný vliv pozorování Y\,... ,Yn je rovný h = —. n Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika 14/50 Rezidua a jejich vlastnosti Definice 10 (Rezidua) Vektor reziduí (residuals) je vektor rozdílů skutečných hodnot a odhadů r=(r1/...,rny = Y-Y={Y1-Yl,...,Yn-Yny. Věta 11 Pro vektor reziduí r a pro odhady Y platí: r=(In-H)Y=(In-H)e, Dr = cr2(In-H), DÝ = cr2H. Důkaz: r = Y-Y = Y-HY = (In - H)Y = (In - H)Xfi+(In - H)e = (í„ - H)e. V-v-' o Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika 15/50 Využití reziduí v regresní diagnostice První tvrzení předchozí věty tedy říká, že rezidua r souvisí s náhodnými odchylkami e od regresního modelu. Chybu ez- měření Yj bychom tedy mohli detekovat pomocí rezidua ľj. Avšak v případě, že hjj « 1, je odpovídající hodnota na hlavní diagonále matice In — H rovna 1 — hjj ~ 0. To znamená, že v případě velkého vlivu pozorování Yj se chyba tohoto pozorování nemusí projevit v reziduu ľj. Rezidua ostatních měření však ovlivnit může, pokud projekční matice H není diagonální. V regresní diagnostice se proto zavádí a používají další typy reziduí. MA012 Statistika 11-7. Regresní diagnostika Další typy reziduí Definice 12 Normované rezidum (normalized/scaled) je rNi = -s Modifikované normované reziduum je Standardizované reziduum je rsi = \Jn — k sy/n — k Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika 17/50 Další typy reziduí Definice 13 Predikované reziduum (predicted/crossvalidated) je reziduum v modelu bez z-tého pozorování, tzn. rP(z) = Yi - y(z> kde Y(z) = Xj8^, a vektor parametrů odhadneme v LRM bez z-tého pozorování. Studentizované rezidum (jackknife residual) je rJ (0 - rP (0 kde je odhad rozptylu náhodných chyb v modelu bez z-tého pozorování (tzn s n — k — 1 stupni volnosti). DFFIT reziduum je ä-tízŽSL s (z) V ha Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika 18/50 Další typy reziduí Definice 14 Vektor Parciálních reziduí r^j = • • • 'rn\j])f Je tvořen rezidi v modelu bez /-tého parametru /3y, tzn. kde Y^] = X^/3^ je odhad v modelu, v němž ve vektoru parametrů chybí parametr /3y a v matici plánu X^ chybí odpovídající sloupec. Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika 19/50 Vlastnosti reziduí Následující tvrzení ukazuje, že jednotlivá rezidua je možno počítat Věta 15 Ti r-x(;\ = J(0 s (i) V^-hu 1-hu' 2 2 (n-k)(l-huy di = rHi)\l iZTh 11 Pokud mají veličiny Y\,..., Yn normální rozdělení pravděpodobnosti, potom r~Nn (O, cr2(In-H)y rj(i) ~ t{n-k). MA012 Statistika 11-7. Regresní diagnostika 20/50 Odlehlá pozorování Definice 16 Pozorování Yj je odlehlé, jestliže Ečj 7^ 0. Věta 17 Hypotézu Hq : Ečz- = 0 proti H\ : Ečz- 7^ 0 zamítneme na hladině významnosti oc, tzn. pozorování Y j je odlehlé, pokud *J (0 > h-ocn(n-k). Pro n — k > 30 lze použít aproximaci podmínky ve tvaru 'J (0 > 2. Lze využít také D F FIT reziduí Pro n — k > 30 detekujeme jako odlehlá ta pozorování, pro něž platí MA012 Statistika 11-7. Regresní diagnostika 21/50 Vliv pozorování — Cookova vzdálenost Definice 18 (Cookova vzdálenost) Pro měření vlivu z-tého pozorování na hodnotu odhadu /S se používá tzv. Cookova vzdálenost (Y-Y{i)Y(Y-Y{i)) _r*{i) hii ks2 k 1-V Cookova vzdálenost je euklidovská vzdálenost mezi vektory predikce V ze všech porozorvání a predikce při vynechání z=tého pozorování, a souvisí s konfidenčním elipsoidem odhadů. Vyjadřuje vliv z-tého bodu pouze na odhady /S, nikoliv na odhad rozptylu cr2 náhodných chyb. Věta 19 V praxi se obvykle za vlivný bod označuje takový, pro nějž je D j > 1. MA012 Statistika 11-7. Regresní diagnostika 22/50 Vliv pozorování — další možnosti Definice 20 (Welschova-Kuhova vzdálenost) Pro měření vlivu z-tého pozorování simultánně na hodnotu odhadu /S i na odhad rozptylu cr2 náhodných chyb se používá statistika DFFITSj = df =--f^r. S(f) y/ha Definice 21 (Parciální vliv) ^—v. y—v Pro měření vlivu /-tého pozorování na hodnotu /-té složky /5; odhadu j6 je navržena statistika ^ ^ DFBETASij = Věta 22 Obvykle se parciální vliv považuje za prokázaný, pokud DFBETASij > 2 \J\. 23/50 Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika Vliv pozorování — variační poměr Definice 23 (Variační poměr) Pro měření vlivu i-tého pozorování na kovariační matici Dj6 (spec. na rozptyly) vektoru odhadů j6 je navržena statistika COVRATIOi = 1 - ha' Věta 24 Jako pozorování mající vliv na kovariační matici D/5 odhadů fí se doporučuje považovat ta, pro něž je \COVRATIO 1|>3£ MA012 Statistika 11-7. Regresní diagnostika 24/50 Grafické nástroje Graf predikovaných reziduí: osa x: pred i kovaná rezidua rP^ ■ osa y: rezidua rz- vybočující body jsou identifikovány polohou výrazně mimo přímku y = x odlehlá pozorování sice leží na přímce y = x či v její blízkosti, ale jsou výrazně vzdálená od ostatních pozorování Williamsův graf: ■ osa x\ vlivy ha ■ osa y: jackknife rezidua r-j-^ mezní linie pro odlehlá pozorování: y = t\_0Ĺ/2{n — k) m mezní linie pro vybočující body: x = 2^ bublinkový graf: obsah bublinek reprezentujících jentolivá data je úměrný Cookově vzdálenosti Dj MA012 Statistika 11-7. Regresní diagnostika Grafické nástroje Pregibonův graf: ■ osa x: vlivy ha osa y: kvadráty modifikovaných normovaných reziduí ■ hraniční linie: y —x + 2| a y = —x + 3^ pozorování zobrazená mezi oběma přímkami jsou vlivná, pozorování zobrazená nad horní přímkou jsou silně vlivná Graf: ■ osa x\ vlivy ha ■ osa y: Cookova vzdálenost Dz- Q-Q plot: osa x: teoretické kvantily standardizovaného normálního rozdělení N(0; 1) ■ osa y: standardizovaná rezidua r$j MA012 Statistika 11-7. Regresní diagnostika Grafické nástroje Indexové grafy: ■ osa x: index i pozorovaní ■ osa y: jednotlivé typy reziduí nebo vlivy ha nebo odhady nebo vzdálenosti (např. Cookova Dz) Graf: ■ osa x: odhady Yz- ■ osa y: rezidua r\ Graf: ■ osa x: odhady Yz- ■ osa y: odmocniny absolutních hodnot standardizovaných reziduí, y/\řš Scatter-plot: ■ osa x\ nezávisle proměnná ■ osa y: závisle proměnná Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika 27/50 Data set 1 Data set 2 o (M O O O 00 O CD O o (M O —I o (M O O O 00 O CD O o (M O —I MA012 Statistika 11-7. Regresnf diagnostika Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika LRM pro Dataset 1 ml<-lm(yl~xl) summary(ml) Residuals: Min 1Q Median 3Q Max -8.2031 -1.6710 0.0737 3.1437 6.3020 Coef f icients : Estimate Std. Error t value Pr(>|t|) (Intercept) 5.8296 1.1903 4.897 3.67e-05 *** xl 2.9517 0.1026 28.762 < 2e-16 *** Residual standard error: 4.039 on 28 degrees of freedom Multiple R-squared: 0.9673, Adjusted R-squared: 0.9661 F-statistic: 827.2 on 1 and 28 DF, p-value: < 2.2e-16 MA012 Statistika 11-7. Regresnf diagnostika LRM pro Dataset 1 m2<-lm(y2~x2) summary(m2) Residuals: Min 1Q Median 3Q Max -40.357 -6.517 0.260 6.759 24.885 Coef f icients : Estimate Std. Error t value Pr(>|t|) (Intercept) 22.0678 3.7758 5.845 2.78e-06 *** x2 0.7510 0.3255 2.307 0.0287 * Residual standard error: 12.81 on 28 degrees of freedom Multiple R-squared: 0.1597, Adjusted R-squared: 0.1297 F-statistic: 5.322 on 1 and 28 DF, p-value: 0.02867 MA012 Statistika 11-7. Regresnf diagnostika Residuals vs Fitted Normal Q-Q Ondrej Pokora, PrF MU (2015) MA012 Statistika 11-7. Regresnf diagnostika Scale-Location Cook's distance "O "co CD "O CD N CO "O c B CO 00 o o o o 260 o ° o Jo \ / c/ °00\ / \/ / o V o ° o 0 20 CD O c "So CO !k o o O o c\i o o o 60 100 Fitted values Obs. number Ondrej Pokora, PrF MU (2015) MA012 Statistika 11-7. Regresnf diagnostika 35/50 "O "co CD i_ "O CD N TD i_ CO "O c _2 CO C\J I Residuals vs Leverage o H Cook's dist vs Leverage hN/(1 o c\i o o o 0.0 0.2 0.4 0.6 0 0.3 0.5 0.6 Leverage Leverage hj Ondrej Pokora, PrF MU (2015) MA012 Statistika 11-7. Regresnf diagnostika Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika Scale-Location Cook's distance Ondrej Pokora, PrF MU (2015) MA012 Statistika 11-7. Regresnf diagnostika 38/50 "O "co CD i_ "O CD N TD i_ CO "O c _2 CO CM H o H CM I ^1" I Residuals vs Leverage Cook's dist vs Leverage hN/(1 -6—5- o C\J 0.0 0.2 0.4 0.6 0 0.3 0.5 0.6 Leverage Leverage hj Ondrej Pokora, PrF MU (2015) MA012 Statistika 11-7. Regresnf diagnostika Hat-Values MA012 Statistika 11-7. Regresnf diagnostika 238 A oo 0.1 0.2 0.3 0.4 0.5 0.6 Hat-Values Ondřej Pokora, PřF MU (2015) MA012 Statistika 11-7. Regresní diagnostika Podezřelá pozorování pro Dataset 1 meze pro hii: 2*k/n=0.1333 3*k/n=0.2 [,1] [,2] [,3] [,4] [,5] [,6] 26 26 11.96542 32.94453 -2.210719 0.03861484 0.08618558 30 30 39.00000 125.00000 1.658210 0.61041902 2.02747514 Podezřelá pozorování pro Dataset 2 meze pro hii: 2*k/n=0.1333 3*k/n=0.2 [,1] [,2] [,3] [,4] [,5] [,6] 20 20 18.58604 60.91134 2.16843 0.09137258 0.2088146 30 30 39.00000 11.00000 -16.50284 0.61041902 19.9574746 Struktura ta buky: i Xj Y J (0 ha D, Diagnostic Plots CD ü C go T3 03 o o O Cd "ü -i-03 CD CD ■— -i- c T CD CD ■ _3 CÖ > I Q. — O c o "1~ jü o lo 03 o 03 _3 § CO I ö CM o o —©1-s2—2-e-« l-G-Q-&-Q-( »-a-a-Q-O-1 ■-a-8-a-a-1 i-Q-a-©-a-( i_2_a ?8m ?9a ö r— —-T—----T---—i-=-1 29© JUö 9

-9-9-9-9-< *-9-9-9-9-( >-Ö-Ö-Ö-S-1 > O O iiOO iisO 30« > -iUi )- T ^ ? o < > 9