M5VM05 Statistické modelování 6. Ověřování předpokladů v klasickém modelu lineární regrese - I Jan Koláček (kolacek@math.muni.cz) Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno "f Jan Koláček (PřF MU) M5VM05 Statistické modeloval 1/25 Motivace Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 2/25 Testování normality Graficky O Histogram ► třídicí intervaly («1,112), ■ ■ ■, (ur, ur+i) ► doporučuje se volit r blízké ^fň. Cetnostní hustota /-tého třídicího intervalu je definována vztahem kde dj = Uj+i — Uj. Soustava obdélníků sestrojených nad třídicími intervaly, jejichž plochy jsou rovny relativním četnostem, se nazývá histogram . Jan Koláček (PřF MU) M5VM05 Statistické modeloval 3/25 Testování normality O Quantile - quantile plot (Q-Q plot) Q-Q plot konstruujeme tak, že na svislou osu vynášíme uspořádané hodnoty *(i) < ■ ■ ■ < *(„) a na vodorovnou osu kvantily Ka.(X) vybraného rozložení, kde ' ;'" radj O.; = -—, ' n + nadj přičemž radj a na^ jsou korigující faktory < 0,5. Implicitně se klade ra^ = 0,375 a nat}j = 0,25. Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadují z dat, nebo se volí na základě teoretického modelu. Body (Ka.(X),x^) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím lepší je soulad mezi empirickým a teoretickým rozložením. Jsou-li některé hodnoty < ■ ■ ■ < X(„) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 4/25 Testování normality O Graf výběrové distribuční funkce Položme z(0 = HO i = 1,.... n, s =-- (xj — x) n - 1 H ' i=l x-ová osa: hodnoty z^ y-ová osa: hodnoty distribuční funkce N(0,1) (x). Nechť Fn(x) je výběrová distribuční funkce. Testovou statistikou je statistika Nulovou hypotézu zamítáme na hladině významnosti a, když Dn > Dn(a), kde Dn(a) je tabelovaná kritická hodnota. Pro n > 30 lze Dn(a) aproximovat výrazem Dn= sup \Fn(x) - (x)\. — 00<^<00 Jan Koláček (PřF MU) M5VM05 Statistické modeloval 6/25 Testování normality O Shapirův - Wilkův test normality Testujeme hypotézu, která tvrdí, že náhodný výběr Xi,...,Xn pochází z rozložení N (ji, a2). Test je založen na zjištění, zda body v Q-Q plotu jsou významně odlišné od regresní přímky proložené těmito body. Shapirův -Wilkův test se používá především pro výběry menších rozsahů, n < 50. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 7/25 Testování normality O Testy dobré shody Hq : „náhodný výběr Xi,... ,X„ pochází z rozdělení s distr. funkcí (x)" • Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů (uj,Uj+i),j = 1,..., r. Zjistíme absolutní četnost My j-t&no třídicího intervalu a vypočteme pravděpodobnost py, že náhodná veličina X s distribuční funkcí O(x) se bude realizovat v /-tém třídicím intervalu. Platí-li nulová hypotéza, pakpy = (My+1) -(My). • Má-li distribuční funkce nejvýše spočetně mnoho bodů nespojitosti, pak místo třídicích intervalů použijeme varianty x^,j = 1,... ,r. Pro variantu x^ zjistíme absolutní četnost My a vypočteme pravděpodobnost py, že náhodná veličina X s distribuční funkcí O(x) se bude realizovat variantou x^y Platí-li nulová hypotéza, pak Pj = O - lim O(x) =P(X = xM) . (1) Testová statistika: ^ = E^^«^-i-P). (2) 7=1 nn Aproximace se považuje za vyhovující, když npj > 5, j = 1,... ,r. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 8/25 Příklad Příklad 1 Deset pokusných osob mělo nezávisle na sobě bez předchozího nácviku odhadnout, kdy od daného signálu uplyne jedna minuta. Výsledky pokusu jsou uloženy v souboru „minuta.RData". Testujte graficky i výpočtem, zda se jedná o výběr z normálního rozdělení. Řešení Histogram a teoretická hustota Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení Q-Q plot Normal Q-Q Plot -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles Jan Koláček (PřF MU) M5VM05 Statistické modeloval 10 / 25 Řešení Výběrová distribuční funkce Jan Koláček (PřF MU) M5VM05 Statistické modeloval 11 / 25 Řešení Výpočtem o Kolmogorovův - Smirnovův test • Shapirův-Wilkův test • Test dobré shody ■ value = 0,9985 ■ value = 0,9164 ■ value = 0,9189 Jan Koláček (PřF MU) M5VM05 Statistické modelováni Autokorelace V některých případech (často v časových řadách) hodnoty náhodné chyby £,• závisí na předchozích hodnotách k = 1,2,..., což má za následek, že efekt náhodných chyb není okamžitý, aleje pociťován i v budoucnosti. Tento případ se nazývá autokorelace. Nejjednodušší typ: autoregrese 1. řádu - ozn. AR(1) £,■ = 6e. i-l + "('/ kde 8 je neznámý parametr, |r?| < 1, E«(- = 0, cov(uj,Uj Jan Koláček (PřF MU) M5VM05 Statistické modeloval 13 / 25 AR(1) £; = 0£i-i + «< = 6(0£i-2 + ui-l) + ui = $2ei-2 + &ui-l + «;=■■■ = E ^'uz'-/ 7=0 CO co Ee,- = E E = E 0JEuH = 0 7=0 7=0 oo oo oo 2 De,- = D E ^"«-7 = E ^'Dm,-_;- = o* E ^' = t% 7=0 7=0 7=0 co co co QÍ (p- cov(eí,£h) = E E 0r0scov(ui_r,Ui=_s) = &al E 02r = Pro 7 > 0 r=0s=0 r=0 Tedy / 1 0 62 ... e"-^ e i e ... e"-2 De = V* n-1 = __«_w e2 e i ; Máme tedy model tvaru: Y = X/3 + £, Ee = 0, De = tr^W, píšeme Y ~ £(X/3, ct^W) Jan KoláCek (PřF MU) M5VM05 Statistické modelování 14 / 25 Rozšířený lineární model Věta 2 (Aitkenův odhad) Mějme regresní model Y ~ £(X/3,c2W) plné hodnosti, kde W > 0. Pak odhad pomocí metody nejmenších čtverců je roven Pw = (VW^X^^W^Y. Z věty tedy plyne, že pokud známe parametr 8, můžeme v uvedeném modelu najít odhady Jan Koláček (PřF MU) M5VM05 Statistické modeloval 15 / 25 Detekce autokorelace O Graficky Označme e = Y — Y. Do grafu postupně vykreslíme hodnoty £,• v závislosti na é;_i, i = 2, ...,n. Bude-li z grafu zřejmá přibližná lineární závislost, svědčí to o autokorelaci 1. řádu nebo o špatné volbě modelu. O Test hypotézy H0 : 6 = 0 proti Hi : 9 ^ 0 (a) Asymptotický test: Pro dostatečně velká n (n > 30) platí '-v a 1-62 N(0,1) Za platnosti hypotézy má tedy statistika yňé~N(0,l). Pak nulovou hypotézu zamítáme, pokud |v^w| > Mj_« Jan Koláček (PřF MU) M5VM05 Statistické modelováni Detekce autokorelace (b) Durbin — Watsonův test: je založen na statistice Ľ (ě«-eVi)2 i=l Pokud budou residua málo korelovaná, hodnota D se bude pohybovat kolem 2. Kladná hodnota způsobí, že D G (0,2) a záporná korelace způsobí, že D E (2,4). Přesné hodnoty kritických oborů pro test nalezneme v tabulkách. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 17 / 25 Odhad parametru 9 Odhad parametru 8 Odhadujeme jako regresní koeficient v modelu é; = 0£i-i + í = 2,. . metodou nejmenších čtverců. Odtud pak . ,n Ľ é;ěr-i i=2_ n i=2 O Pomocí Durbin - Watsonovy statistiky: -f Jan Koláček (PřF MU) M5VM05 Statistické modelováni Odstranění autokorelace 1. řádu Postup: O Nalezneme odhad 8 O Vytvoříme nový model Y* = Yi+1 - §Y0 X*. = Xi+y - §Xijr i = 1.....n - 1, ; = 1.....k, tj. vznikne model Y* = X*/3* + £*, Ee* = 0, De* = a^l„ a hledáme odhady p standardním způsobem. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 19 / 25 Příklad Příklad 3 V letech 1953 - 1983 byly měřeny ztráty vody při distribuci do domácností. Výsledky měření jsou uloženy v souboru „voda.RData". Proměnná x označuje množství vyrobené vody proměnná Y ztrátu. Ověřte, zda se v datech vyskytuje autokorelace 1. řádu a případně ji odstraňte. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 20 / 25 Řešení Řešení Graficky residual plot -20 -15 -10 -5 0 5 10 15 e_1.....e_n-1 Z grafu je patrná lineární závislost. Jan Koláček (PřF MU) M5VM05 Statistické modelování Řešení (a) Asymptotický test: U9 = |Vň0| = 2,339. Nulovou hypotézu tedy zamítáme, nebot |a/w0| > = 1,96. (b) Durbin - Watsonův test: Ľ (ě«-eVi)2 D = ——--= 1,082 Ľ Ž? i=l a p-hodnota testu je 0,0016, takže také zamítáme nulovou hypotézu. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 22 / 25 Řešení Odstranění autokorelace: Odhady 8 jsou velmi podobné. Metodou nejmenších čtverců: 8 = 0,42 Z D-W statistiky: § = 0,459 V nově vzniklém modelu vykreslíme residua: residual plot Také D-W test již nezamítá nulovou hypotézu (p-hodnota = 0,4). Jan Koláček (PřF MU) M5VM05 Statistické modelování 23 / 25 Úlohy k procvičení Příklad 1.1 V souboru „ studenti. RData" jsou uloženy údaje o 96 studentech VŠE v Praze. Hodnoty v prvním sloupci značí hmotnost studentů v kg (proměnná Y), ve druhém sloupci je výška studentů v cm (proměnná X\) a ve třetím sloupci je indikátor pohlaví studenta (proměnná Xi, 0 - žena, 1 - muž). Předpokládejte regresní model Y = ft, + ftXx + /32X2. Odhadněte parametry modelu a ověřte normalitu residuí. Dále pak testujte přítomnost autokorelace 1. řádu, případně ji odstraňte. [Odhady parametrů: /3q = —53,67, /3i = 0,6648, f>2. = 6,3323, normalita se nezamítá, autokorelace 1. řádu se zamítá.] Jan Koláček (PřF MU) M5VM05 Statistické modeloval 24 / 25 Úlohy k procvičení Příklad 1.2 V proměnné „LakeHuron"3 jsou uloženy roční údaje o hloubce jezera Huron (ve stopách) v letech 1875 - 1972. Nalezněte vhodný regresní model a ověřte, zda se v datech vyskytuje autokorelace 1. řádu. Případně se ji pokuste odstranit. Zkoumejte také normalitu residuí. adatový soubor implementovaný v jazyce R [Vhodný model: polynom 7. stupně, autokorelace 1. řádu se nezamítá, normalita residuí u nového modelu se nezamítá.] Jan Koláček (PřF MU) M5VM05 Statistické modeloval 25 / 25