M5VM05 Statistické modelování
6. Ověřování předpokladů v klasickém modelu lineární regrese - I
Jan Koláček (kolacek@math.muni.cz)
Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno
podzim 2013
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
podzim 2013 1/25
Motivace
Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013
2/25
Testování normality
Graficky O Histogram
► třídicí intervaly («1,112), ■ ■ ■, (ur, ur+i)
► doporučuje se volit r blízké ^fň.
Cetnostní hustota /-tého třídicího intervalu je definována vztahem
kde dj = Uj+i — Uj. Soustava obdélníků sestrojených nad třídicími intervaly, jejichž plochy jsou rovny relativním četnostem, se nazývá histogram .
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013
3/25
Testování normality
O Quantile - quantile plot (Q-Q plot)
Q-Q plot konstruujeme tak, že na svislou osu vynášíme uspořádané hodnoty *(i) < ■ ■ ■ < *(„) a na vodorovnou osu kvantily Ka.(X) vybraného rozložení, kde '
;'" radj
O.; = -—,
' n + nadj
přičemž radj a na^ jsou korigující faktory < 0,5. Implicitně se klade ra^ = 0,375 a nat}j = 0,25. Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadují z dat, nebo se volí na základě teoretického modelu. Body (Ka.(X),x^) se metodou nejmenších čtverců proloží přímka.
Čím méně se body odchylují od této přímky, tím lepší je soulad mezi empirickým a teoretickým rozložením.
Jsou-li některé hodnoty < ■ ■ ■ < X(„) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 4 / 25
Testování normality
O Graf výběrové distribuční funkce Položme
z(0 =
HO
i =
1,.... n, s =-- (xj — x)
n - 1 H '
i=l
x-ová osa: hodnoty z^
y-ová osa: hodnoty distribuční funkce N(0,1)
(x). Nechť Fn(x) je výběrová distribuční funkce. Testovou statistikou je statistika
Nulovou hypotézu zamítáme na hladině významnosti a, když Dn > Dn(a), kde Dn(a) je tabelovaná kritická hodnota. Pro n > 30 lze Dn(a) aproximovat výrazem
Dn= sup \Fn(x) - (x)\.
— 00<^<00
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013
6/25
Testování normality
O Shapirův - Wilkův test normality
Testujeme hypotézu, která tvrdí, že náhodný výběr Xi,...,Xn pochází z rozložení N (ji, a2). Test je založen na zjištění, zda body v Q-Q plotu jsou významně odlišné od regresní přímky proložené těmito body. Shapirův -Wilkův test se používá především pro výběry menších rozsahů, n < 50.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 7 / 25
Testování normality
O Testy dobré shody
Hq : „náhodný výběr Xi,... ,X„ pochází z rozdělení s distr. funkcí (x)"
• Je-li distribuční funkce spojitá, pak data rozdělíme do r třídicích intervalů (uj,Uj+i),j = 1,..., r. Zjistíme absolutní četnost My j-t&no třídicího intervalu a vypočteme pravděpodobnost py, že náhodná veličina X s distribuční funkcí O(x) se bude realizovat v /-tém třídicím intervalu. Platí-li nulová hypotéza, pakpy = (My+1) -(My).
• Má-li distribuční funkce nejvýše spočetně mnoho bodů nespojitosti, pak místo třídicích intervalů použijeme varianty x^,j = 1,... ,r. Pro variantu x^ zjistíme absolutní četnost My a vypočteme pravděpodobnost py, že náhodná veličina X s distribuční funkcí O(x) se bude realizovat variantou x^y Platí-li nulová hypotéza, pak
Pj = O - lim O(x) =P(X = xM) . (1)
Testová statistika:
K=th^~rir-l-V). (2)
j=i nn
Aproximace se považuje za vyhovující, když npj > 5, j = 1,... ,r.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
podzim 2013 8 / 25
Příklad
Příklad 1
Deset pokusných osob mělo nezávisle na sobě bez předchozího nácviku odhadnout, kdy od daného signálu uplyne jedna minuta. Výsledky pokusu jsou uloženy v souboru „minuta.RData". Testujte graficky i výpočtem, zda se jedná o výběr z normálního rozdělení.
Řešení Histogram a teoretická hustota
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
podzim 2013 9 / 25
Řešení
Q-Q plot
Normal Q-Q Plot
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Theoretical Quantiles
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 10 / 25
Řešení
Výběrová distribuční funkce
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 11 / 25
Řešení
Výpočtem o Kolmogorovův - Smirnovův test
• Shapirův-Wilkův test
• Test dobré shody
■ value = 0,9985
■ value = 0,9164
■ value = 0,9189
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
podzim 2013 12 / 25
Autokorelace
V některých případech (často v časových řadách) hodnoty náhodné chyby £,• závisí na předchozích hodnotách k = 1,2,..., což má za následek, že efekt náhodných chyb není okamžitý, aleje pociťován i v budoucnosti. Tento případ se nazývá autokorelace.
Nejjednodušší typ: autoregrese 1. řádu - ozn. AR(1)
£,■ = 6e.
i-l + "('/
kde 8 je neznámý parametr, |r?| < 1, E«(- = 0, cov(uj,Uj
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 13 / 25
AR(1)
£; = 0£i-i + «< = 6(0£i-2 + ui-l) + ui = $2ei-2 + &ui-l + «;=■■■ = E ^'uz'-/
7=0
CO co
Ee,- = E E = E 0JEuH = 0
7=0 7=0
oo oo oo 2
De,- = D E ^"«-7 = E ^'Dm,-_;- = o* E ^' = t% 7=0 7=0 7=0
co co co QÍ (p-
cov(eí,£h) = E E 0r0scov(ui_r,Ui=_s) = &al E 02r = Pro 7 > 0
r=0s=0 r=0
Tedy
/ 1 0 e1 ... e"-^
e i e ... en~2
De =
1-02
n-1
= w
1-02
e2 e i ;
Máme tedy model tvaru:
Y = X/3 + £, Ee = 0, De = tr^W, píšeme Y ~ £(X/3, ct^W)
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
podzim 2013 14 / 25
Rozšířený lineární model
Věta 2 (Aitkenův odhad)
Mějme regresní model Y ~ £(X/3,c2W) plné hodnosti, kde W > 0. Pak odhad pomocí metody nejmenších čtverců je roven
Pw = (VW^X^^W^Y.
Z věty tedy plyne, že pokud známe parametr 8, můžeme v uvedeném modelu najít odhady
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 15 / 25
Detekce autokorelace
O Graficky
Označme e = Y — Y. Do grafu postupně vykreslíme hodnoty £,• v závislosti na é;_i, i = 2, ...,n. Bude-li z grafu zřejmá přibližná lineární závislost, svědčí to o autokorelaci 1. řádu nebo o špatné volbě modelu. O Test hypotézy H0 : 6 = 0 proti Hi : 9 ^ 0
(a) Asymptotický test: Pro dostatečně velká n (n > 30) platí
'-V A
1-62
N(0,1)
Za platnosti hypotézy má tedy statistika
yňé~N(0,l). Pak nulovou hypotézu zamítáme, pokud |v^w| > Mj_«
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
Detekce autokorelace
(b) Durbin — Watsonův test: je založen na statistice
Ľ (ě«-eVi)2
i=l
Pokud budou residua málo korelovaná, hodnota D se bude pohybovat kolem 2. Kladná hodnota způsobí, že D G (0,2) a záporná korelace způsobí, že D E (2,4). Přesné hodnoty kritických oborů pro test nalezneme v tabulkách.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 17 / 25
Odhad parametru 9
Odhad parametru 8 O Odhadujeme jako regresní koeficient v modeli
é; = 0£i-i + í =
metodou nejmenších čtverců. Odtud pak
Ľ éiěi-i
i=2_
n
i=2
O Pomocí Durbin - Watsonovy statistiky:
-f
Jan Koláček (PřF MU) M5VM05 Statistické modelováni
Odstranění autokorelace 1. řádu
Postup: O Nalezneme odhad 8 O Vytvoříme nový model
Y* = Yi+1 - §Y0 X*. = Xi+y - §Xijr i = 1.....n - 1, ; = 1.....k,
tj. vznikne model
Y* = X*/3* + £*, Ee* = 0, De* = a^l„ a hledáme odhady p standardním způsobem.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 19 / 25
Příklad
Příklad 3
V letech 1953 - 1983 byly měřeny ztráty vody při distribuci do domácností. Výsledky měření jsou uloženy v souboru „voda.RData". Proměnná x označuje množství vyrobené vody proměnná Y ztrátu. Ověřte, zda se v datech vyskytuje autokorelace 1. řádu a případně ji odstraňte.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 20 / 25
Řešení
Řešení Graficky
residual plot
-20 -15 -10 -5 0 5 10 15
e_1.....e_n-1
Z grafu je patrná lineární závislost.
Jan Koláček (PřF MU)
M5VM05 Statistické modelováni
podzim 2013 21 / 25
Řešení
(a) Asymptotický test:
U9 = |Vň0| = 2,339.
Nulovou hypotézu tedy zamítáme, nebot |a/w0| > = 1,96.
(b) Durbin - Watsonův test:
Ľ (ě«-eVi)2 D = ——--= 1,082
Ľ Ž?
i=l
a p-hodnota testu je 0,0016, takže také zamítáme nulovou hypotézu.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 22 / 25
Řešení
Odstranění autokorelace:
Odhady 8 jsou velmi podobné.
Metodou nejmenších čtverců: 8 = 0,42
Z D-W statistiky: § = 0,459
V nově vzniklém modelu vykreslíme residua:
residual plot
Také D-W test již nezamítá nulovou hypotézu (p-hodnota = 0,4).
Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 23 / 25
Úlohy k procvičení
Příklad 1.1
V souboru „ studenti. RData" jsou uloženy údaje o 96 studentech VŠE v Praze. Hodnoty v prvním sloupci značí hmotnost studentů v kg (proměnná Y), ve druhém sloupci je výška studentů v cm (proměnná X\) a ve třetím sloupci je indikátor pohlaví studenta (proměnná X2, 0 - žena, 1 - muž). Předpokládejte regresní model
Y = ft, + ftXx + /32X2.
Odhadněte parametry modelu a ověřte normalitu residuí. Dále pak testujte přítomnost autokorelace 1. řádu, případně ji odstraňte.
<
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 24 / 25
Úlohy k procvičení
Příklad 1.2
V proměnné „LakeHuron"3 jsou uloženy roční údaje o hloubce jezera Huron (ve stopách) v letech 1875 - 1972. Nalezněte vhodný regresní model a ověřte, zda se v datech vyskytuje autokorelace 1. řádu. Případně se ji pokuste odstranit. Zkoumejte také normalitu residuí.
adatový soubor implementovaný v jazyce R
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
podzim 2013 25 / 25