M5VM05 Statistické modelování 6. Ověřování předpokladů v klasickém modelu lineární regrese — I Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/25 Motivace Možnost použití statistických testuje podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/25 Testování normality Graficky O Histogram třídicí intervaly {xi\, u^),..., {ur, ur+\ ► doporučuje se volit r blízké y/ň. Četnostní hustota /-tého třídicího intervalu je definována vztahem J> dj kde dj = Uj+\ —Uj. Soustava obdélníků sestrojených nad třídicími intervaly, jejichž plochy jsou rovny relativním četnostem, se nazývá histogram . Jan Koláček (PřF MU) M5VM05 Statistické modelování 3/ Testování normality O Quantile - quantile plot (Q-Q plot) Q-Q plot konstruujeme tak, že na svislou osu vynášíme uspořádané hodnoty *(l) < • • • < x(n) a na vodorovnou osu kvantily Xa.(X) vybraného rozložení, kde ] ~ ^adi 1 n + nadj přičemž ra^ a na^ jsou korigující faktory < 0,5. Implicitně se klade ra^ = 0,375 a nadj = 0,25. Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadují z dat, nebo se volí na základě teoretického modelu. Body (X^.(X),x^) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím lepší je soulad mezi empirickým a teoretickým rozložením. Jsou-li některé hodnoty < • • • < stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Jan Koláček (PřF MU) M5VM05 Statistické modelování 4/25 Testování normality Q Graf výběrové distribuční funkce Položme x(i) ~ * ■ _ , 1 ^ / . _ -\2 w s n -1 frfv z ; x-ová osa: hodnoty y-ová osa: hodnoty distribuční funkce N(0,1) Dn(oc) kde Dn(oc) je tabelovaná kritická hodnota. Pro n > 30 lze Dn(oc) aproximovat výrazem '1 In? 2n ol Jan Koláček (PřF MU) M5VM05 Statistické modelování 6/ Testování normality O Shapirův - Wilkův test normality Testujeme hypotézu, která tvrdí, že náhodný výběr ~K\,... ,Xn pochází z rozložení N(/i,rr2). Test je založen na zjištění, zda body v Q-Q plotu jsou významně odlišné od regresní přímky proložené těmito body. Shapirův -Wilkův test se používá především pro výběry menších rozsahů, n < 50. Jan Koláček (PřF MU) M5VM05 Statistické modelování 7/ Testování normality O Testy dobré shody Hq : „náhodný výběr ~k\,... ,Xn pochází z rozdělení s distr. funkcí O(x)11 • Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů {uj,Uj+i),j — 1,.. .,r. Zjistíme absolutní četnost rij /-tého třídicího intervalu a vypočteme pravděpodobnost py že náhodná veličina X s distribuční funkcí O(x) se bude realizovat v /-tém třídicím intervalu. Platí-li nulová hypotéza, pak pj 5,j = 1,.. .,r. Jan Koláček (PřF MU) M5VM05 Statistické modelování 8/25 ■ Příklad 1 Deset pokusných osob mělo nezávisle na sobě bez předchozího nácviku odhadnout, kdy od daného signálu uplyne jedna minuta. Výsledky pokusu jsou uloženy v souboru „minuta. RData". Testujte graficky i výpočtem, zda se jedná o výběr z normálního rozdělení Řešení Histogram a teoretická hustota Histogram, Normál Curve oo CD —. CĎ CO CD CĎ 1 s CD CD CM CD CĎ CD CD CĎ Přiklad 40 45 50 55 60 65 odhad minuty Jan Koláček (PřF MU) M5VM05 Statistické modelování 9/25 Řešení Q-Q plot Normal Q-Q Plot -0.5 0.0 0.5 Theoretical Quantiles Jan Koláček (PřF MU) M5VM05 Statistické modelování 10 Jan Koláček (PřF MU) M5VM05 Statistické modelování 11 Řešení Výpočtem 9 Kolmogorovův - Smirnovův test p — value 0,9985 Shapirův-Wilkův test • Test dobré shody p — value 0,9164 p - value = 0,9189 Jan Koláček (PřF MU) M5VM05 Statistické modelování 12/ Autokorelace V některých případech (často v časových řadách) hodnoty náhodné chyby £j závisí na předchozích hodnotách k = 1,2,..., což má za následek, že efekt náhodných chyb není okamžitý, aleje pociťován i v budoucnosti. Tento případ se nazývá autokorelace. Nejjednodušší typ: autoregrese 1. řádu - ozn. AR(1) ( £p- i - j kde 9 je neznámý parametr, 9 < 1, Euí = 0, cov(uí.Uj) = < j1 .. , v J/ I 0 jinak. Jan Koláček (PřF MU) M5VM05 Statistické modelování 13 / 25 AR(1) £j = 0£i-i + Ui = 0(0£r_2 + M/-l) + U{ = 02£i-2 + 0w/-1 +m = ■■■ = £ Ohi-j j=0 oo oo Eei = E E 0ÍuH = E 0ÍEuH = 0 7=0 ;=0 00 00 00 De,- = D E 0Vi = E ^"Di/H = al E A2' = T ;=0 ;=0 7=0 00 00 C0v(£i,£i-j) r=0 s=0 Tedy / 1 0 02 0 E E 9r9scov(uj_r,Uj_j_s e2 00 r=0 pro ; > 0 D£ = 1-É>2 0 0 n—1 u i-e2 w. ... e2 e i / Máme tedy model tvaru: Y = XjS + e, Ee = O, De = cr^W, pijeme Y ~ £(X/J, cr2W) Jan Koláček (PřF MU) M5VM05 Statistické modelování 14/ Rozšírený lineární model Věta 1 (Aitkenův odhad) Mějme regresní model Y ~ £(XjS,(72W) plné hodnosti, kde W > 0. Pak odhad pomocí metody nejmenších čtverců je roven Z věty tedy plyne, že pokud známe parametr 9, můžeme v uvedeném modelu najít odhady jS. Jan Koláček (PřF MU) M5VM05 Statistické modelování 15 / 25 Detekce autokorelace O Graficky Označme e = Y — Y. Do grafu postupně vykreslíme hodnoty £j v závislosti na £j-\, i = 2,...,n. Bude-li z grafu zřejmá přibližná lineární závislost, svědčí to o autokorelaci 1. řádu nebo o špatné volbě modelu. O Test hypotézy H0 : 6 = 0 proti Hx : 6 ^ 0 (a) Asymptotický test: Pro dostatečně velká n (n > 30) platí li* = 0-0 A N(0,1). Za platnosti hypotézy má tedy statistika Vň0 £n(0,1). Pak nulovou hypotézu zamítáme, pokud \y/ň6\ > U\_*. Jan Koláček (PřF MU) M5VM05 Statistické modelování 16 / 25 Detekce autokorelace (b) Durbin — Watsonův test: je založen na statistice Ľ (ér-eVi)2 n i=l Pokud budou residua málo korelovaná, hodnota D se bude pohybovat kolem 2. Kladná hodnota způsobí, že D G (0,2) a záporná korelace způsobí, že D £ (2,4). Přesné hodnoty kritických oborů pro test nalezneme v tabulkách. Jan Koláček (PřF MU) M5VM05 Statistické modelování 17 / 25 Odhad parametru 9 Odhad parametru 6 O Odhadujeme jako regresní koeficient v modelu metodou nejmenších čtverců. Odtud pak n £f£i-l i=2 Q Pomocí Durbin - Watsonovy statistiky: D «=i-T. Jan Koláček (PřF MU) M5VM05 Statistické modelování Odstranění autokorelace 1. řádu Postup: O Nalezneme odhad 9 O Vytvoříme nový model Y* = Yť+i - 9Yľ, X| = Xi+1// - 0Xl/V i = 1,..., n - 1, j = 1,..., k, ,] ""í/ tj. vznikne model Y* = X*j6* + e*, Ee* = 0, De* = (ŕ£A n a hledáme odhady jS standardním způsobem Příklad Příklad 2 V letech 1953 - 1983 byly měřeny ztráty vody při distribuci do domácností. Výsledky měření jsou uloženy v souboru „voda.RData". Proměnná x označuje množství vyrobené vody proměnná Y ztrátu. Ověřte, zda se v datech vyskytuje autokorelace 1. řádu a případně ji odstraňte. Jan Koláček (PřF MU) M5VM05 Statistické modelování 20 / 25 Řešení Řešení Graficky a> m residual plot e_1 ,...,e_n—1 Z grafu je patrná lineární závislost. Jan Koláček (PřF MU) M5VM05 Statistické modelování 21 Řešení (a) Asymptotický test: Ue = \ Vň9\ = 2,339. Nulovou hypotézu tedy zamítáme, neboť \\/ň0\ > u1_* = 1,96. (b) Durbin - Watsonův test: £ (ěi-žf-i)2 D = í=?—jj-= 1,082 Z = l a p-hodnota testu je 0,0016, takže také zamítáme nulovou hypotézu. Jan Koláček (PřF MU) M5VM05 Statistické modelování Řešení Odstranění autokorelace: Odhady 6 jsou velmi podobné. Metodou nejmenších čtverců: 9 = 0,42 Z D-W statistiky: 0 = 0,459 V nově vzniklém modelu vykreslíme residua: residual plot LO I CD e_1 ,...,e_n—1 Také D-W test již nezamítá nulovou hypotézu (p-hodnota = 0,4) Jan Koláček (PřF MU) M5VM05 Statistické modelování Úlohy k procvičení Příklad 1 V souboru „ studenti. RData" jsou uloženy údaje o 96 studentech VSE v Praze. Hodnoty v prvním sloupci značí hmotnost studentů v kg (proměnná Y), ve druhém sloupci je výška studentů v cm (proměnná X\) a ve třetím sloupci je indikátor pohlaví studenta (proměnná X2, 0 - žena, 1 - muž). Předpokládejte regresní model Y = £(, + frXi + Č2X2. Odhadněte parametry modelu a ověřte normalitu residuí. Dále pak testujte přítomnost autokorelace 1. řádu, případně ji odstraňte. i f\ f\ f\ [Odhady parametrů: /3q = —53,67, f>\ = 0,6648, ^2 = 6,3323, normalita se nezamítá, autokorelace 1. řádu se zamítá.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 24 / 25 Úlohy k procvičení Příklad 2 V proměnné „LakeHuron"3 jsou uloženy roční údaje o hloubce jezera Huron (ve stopách) v letech 1875 - 1972. Nalezněte vhodný regresní model a ověřte, zda se v datech vyskytuje autokorelace 1. řádu. Případně se ji pokuste odstranit. Zkoumejte také normalitu residuí. 'datový soubor implementovaný v jazyce R [Vhodný model: polynom 7. stupně, autokorelace 1. řádu se nezamítá, normalita residuí u nového modelu se nezamítá.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 25 / 25